问相似词(或短短语)的分组算法
EN

Stack Overflow用户

提问于 2016-02-26 01:01:48

回答 1查看 415关注 0票数 0

我正在寻找一种算法，可以帮助我对相似的单词进行分类/分组(例如，"Amazon.com“类似于”亚马逊“或"Amz”或"Amzon")。Levenshtein是一种常用的推荐算法，但也有其他算法，如Jaro Winkler等(例如，带有一些单词相似性度量的this is the Python library )

我想知道那些做过类似单词聚合/分组的人是否会有更有效的建议。谢谢!

algorithm

string-matching

data-cleaning

回答 1

Stack Overflow用户

发布于 2016-02-26 01:46:51

我曾经做过这样的事情。我使用了带有很多启发式的Levenshtein。

你真的应该看看这些数据，试着找出最适合你的。Jaro Winkler对名字很有效。如果您尝试将它用于md5 ids，那么您将遇到一段糟糕的时间。如果字符串自然地彼此非常接近，两种方法可能都没有足够的粒度来帮助您，或者您可能需要从外部来源获得更多信息。

总之，尝试设置一些沙箱环境，并尝试在数据中运行不同的算法，看看哪种算法效果更好。您还可以查看每个算法所犯的错误，看看是a)您可以接受它，还是b)您可以轻松地修复它。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35633665

复制

相似问题

问相似词(或短短语)的分组算法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问相似词(或短短语)的分组算法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问相似词(或短短语)的分组算法
EN