我正在寻找一种算法,可以帮助我对相似的单词进行分类/分组(例如,"Amazon.com“类似于”亚马逊“或"Amz”或"Amzon")。Levenshtein是一种常用的推荐算法,但也有其他算法,如Jaro Winkler等(例如,带有一些单词相似性度量的this is the Python library )
我想知道那些做过类似单词聚合/分组的人是否会有更有效的建议。谢谢!
发布于 2016-02-26 01:46:51
我曾经做过这样的事情。我使用了带有很多启发式的Levenshtein。
你真的应该看看这些数据,试着找出最适合你的。Jaro Winkler对名字很有效。如果您尝试将它用于md5 ids,那么您将遇到一段糟糕的时间。如果字符串自然地彼此非常接近,两种方法可能都没有足够的粒度来帮助您,或者您可能需要从外部来源获得更多信息。
总之,尝试设置一些沙箱环境,并尝试在数据中运行不同的算法,看看哪种算法效果更好。您还可以查看每个算法所犯的错误,看看是a)您可以接受它,还是b)您可以轻松地修复它。
https://stackoverflow.com/questions/35633665
复制相似问题