首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何减少语义相似的单词?

如何减少语义相似的单词?
EN

Stack Overflow用户
提问于 2018-09-03 14:56:41
回答 1查看 86关注 0票数 0

我有一个从文档中提取的大量单词语料库。语料库中的单词可能意思相同。例如:"command“和"order”表示相同的意思,"apple“和"apply”表示不同的意思。

我想合并相似的词,说“命令”和“命令”为“命令”。当我尝试使用wup相似度时,如果单词有匹配的同义词,但结果不是那么令人印象深刻,它会给出很好的相似度分数。

减少语义相似词的最佳方法是什么,以消除冗余数据并合并相似数据?

EN

回答 1

Stack Overflow用户

发布于 2018-09-03 17:01:12

我相信这里的一个选择是使用WordNet。它为您提供了一个单词的同义词列表,因此您可以将它们合并在一起,因为您知道它的词性。

然而,我想指出的是,"order“和" command”是不同的,例如,你不在餐馆里点菜,这样的同音异义关系在许多单词中都是正确的。

另外,我想指出的是,由于Word2vec的拼写是无关紧要的,根本没有考虑到这一点,算法只考虑并发使用。我猜你可能把它和FastText混在一起了。但是,您的模型应该存在一些问题。因为在标准的嵌入集合中,这些概念之间的距离应该很大。“苹果”和“应用”之间的MUSE FastText相似度只有0.15,这是相当低的。

我使用Gensim的函数

代码语言:javascript
复制
model.similarity("apply", "apple")

因此,您可能需要修复学习参数或仅使用预先训练的模型。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52144567

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档