开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >如何减少语义相似的单词？

问如何减少语义相似的单词？
EN

Stack Overflow用户

提问于 2018-09-03 14:56:41

回答 1查看 86关注 0票数 0

我有一个从文档中提取的大量单词语料库。语料库中的单词可能意思相同。例如："command“和"order”表示相同的意思，"apple“和"apply”表示不同的意思。

我想合并相似的词，说“命令”和“命令”为“命令”。当我尝试使用wup相似度时，如果单词有匹配的同义词，但结果不是那么令人印象深刻，它会给出很好的相似度分数。

减少语义相似词的最佳方法是什么，以消除冗余数据并合并相似数据？

EN

回答 1

Stack Overflow用户

发布于 2018-09-03 17:01:12

我相信这里的一个选择是使用WordNet。它为您提供了一个单词的同义词列表，因此您可以将它们合并在一起，因为您知道它的词性。

然而，我想指出的是，"order“和" command”是不同的，例如，你不在餐馆里点菜，这样的同音异义关系在许多单词中都是正确的。

另外，我想指出的是，由于Word2vec的拼写是无关紧要的，根本没有考虑到这一点，算法只考虑并发使用。我猜你可能把它和FastText混在一起了。但是，您的模型应该存在一些问题。因为在标准的嵌入集合中，这些概念之间的距离应该很大。“苹果”和“应用”之间的MUSE FastText相似度只有0.15，这是相当低的。

我使用Gensim的函数

model.similarity("apply", "apple")

因此，您可能需要修复学习参数或仅使用预先训练的模型。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52144567

复制

相似问题