文章/答案/技术大牛

发布

社区首页 >问答首页 >词汇级相似词聚类工具

问词汇级相似词聚类工具
EN

Stack Overflow用户

提问于 2013-04-01 20:46:05

回答 2查看 680关注 0票数 0

有没有开放的软件工具包可以比较单词之间的词汇级相似性，并将相似的单词分组在一起？例如，蓝色牛仔裤、蓝色牛仔裤和蓝色牛仔裤(拼写错误)应该组合在一起吗？我不需要在这里寻找语义相似性。

machine-learning

nlp

text-mining

stemming

回答 2

Stack Overflow用户

发布于 2013-04-01 20:51:09

尝试使用自然语言工具包http://nltk.org/

下面是对布朗聚类算法http://www.cs.columbia.edu/~cs4705/lectures/brown.pdf的一个相当抽象的处理

单词之间的标准相似性度量是Levenstein distance http://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance

票数 0

Stack Overflow用户

发布于 2013-04-02 00:30:45

我相信你对词干更感兴趣，而不是对实际的聚类感兴趣，例如使用Levensthein距离:使用无监督的文本相似性很可能产生误报。

从词汇相似性的角度来看，

blue jean
blue dean

也只有一个字符不同。然而，这是一个相当不可能的打字错误。

你真的想要使用一些有监督的东西，比如porter词干分析器来匹配。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15743760

复制

相似问题

问词汇级相似词聚类工具
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问词汇级相似词聚类工具EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问词汇级相似词聚类工具
EN