有没有开放的软件工具包可以比较单词之间的词汇级相似性,并将相似的单词分组在一起?例如,蓝色牛仔裤、蓝色牛仔裤和蓝色牛仔裤(拼写错误)应该组合在一起吗?我不需要在这里寻找语义相似性。
发布于 2013-04-01 20:51:09
尝试使用自然语言工具包http://nltk.org/
下面是对布朗聚类算法http://www.cs.columbia.edu/~cs4705/lectures/brown.pdf的一个相当抽象的处理
单词之间的标准相似性度量是Levenstein distance http://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance
发布于 2013-04-02 00:30:45
我相信你对词干更感兴趣,而不是对实际的聚类感兴趣,例如使用Levensthein距离:使用无监督的文本相似性很可能产生误报。
从词汇相似性的角度来看,
blue jean
blue dean也只有一个字符不同。然而,这是一个相当不可能的打字错误。
你真的想要使用一些有监督的东西,比如porter词干分析器来匹配。
https://stackoverflow.com/questions/15743760
复制相似问题