什么是最好的模糊匹配算法(模糊逻辑,N-Gram,Levenstein,Soundex……),能在更短的时间内处理超过100000条记录?
发布于 2009-01-29 11:34:16
我建议你阅读维基百科上标题为的文章中提到的纳瓦罗的文章。基于实际研究做出决定总是比随机的陌生人的建议要好。尤其是在已知记录集上的性能对您很重要的情况下。
发布于 2009-01-29 12:30:23
这在很大程度上取决于你的数据。某些记录可以比其他记录匹配得更好。例如,邮政编码是一种定义的格式,因此可以以不同的方式与普通字符串进行比较。人名可以是英文首字母和道布,也可以是其他组合等。
https://stackoverflow.com/questions/491148
复制相似问题