我有一个公司的名单,并希望匹配使用谷歌搜索的域名,其中哪些可能属于同一公司。是否有任何现有的算法可用于此用例(合法地允许在商业项目中使用)。
例如,我有互联网电影数据库作为公司名称,并说谷歌返回给我的结果可以是互联网电影数据库,互联网电影,imd,imdb。(注意:为了让问题更简单,我已经从列表中排除了TLD)
发布于 2013-04-05 15:33:45
听起来您正在寻找一种近似的字符串匹配算法。不确定您是在寻找算法,还是在寻找实现。
这里已经有一个问题了:String matching algorithm
一种可能的解决方案是使用Levenshtein距离:http://en.wikipedia.org/wiki/Levenshtein_distance
如果你正在寻找一个实现,如果你搜索“近似字符串匹配C++",这是第一个结果:http://www.chokkan.org/software/simstring/
祝好运!
https://stackoverflow.com/questions/15828121
复制相似问题