首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >相似词(或短短语)的分组算法

相似词(或短短语)的分组算法
EN

Stack Overflow用户
提问于 2016-02-26 01:01:48
回答 1查看 415关注 0票数 0

我正在寻找一种算法,可以帮助我对相似的单词进行分类/分组(例如,"Amazon.com“类似于”亚马逊“或"Amz”或"Amzon")。Levenshtein是一种常用的推荐算法,但也有其他算法,如Jaro Winkler等(例如,带有一些单词相似性度量的this is the Python library )

我想知道那些做过类似单词聚合/分组的人是否会有更有效的建议。谢谢!

EN

回答 1

Stack Overflow用户

发布于 2016-02-26 01:46:51

我曾经做过这样的事情。我使用了带有很多启发式的Levenshtein。

你真的应该看看这些数据,试着找出最适合你的。Jaro Winkler对名字很有效。如果您尝试将它用于md5 ids,那么您将遇到一段糟糕的时间。如果字符串自然地彼此非常接近,两种方法可能都没有足够的粒度来帮助您,或者您可能需要从外部来源获得更多信息。

总之,尝试设置一些沙箱环境,并尝试在数据中运行不同的算法,看看哪种算法效果更好。您还可以查看每个算法所犯的错误,看看是a)您可以接受它,还是b)您可以轻松地修复它。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35633665

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档