我有一个从文档中提取的大量单词语料库。语料库中的单词可能意思相同。例如:"command“和"order”表示相同的意思,"apple“和"apply”表示不同的意思。
我想合并相似的词,说“命令”和“命令”为“命令”。当我尝试使用wup相似度时,如果单词有匹配的同义词,但结果不是那么令人印象深刻,它会给出很好的相似度分数。
减少语义相似词的最佳方法是什么,以消除冗余数据并合并相似数据?
发布于 2018-09-03 17:01:12
我相信这里的一个选择是使用WordNet。它为您提供了一个单词的同义词列表,因此您可以将它们合并在一起,因为您知道它的词性。
然而,我想指出的是,"order“和" command”是不同的,例如,你不在餐馆里点菜,这样的同音异义关系在许多单词中都是正确的。
另外,我想指出的是,由于Word2vec的拼写是无关紧要的,根本没有考虑到这一点,算法只考虑并发使用。我猜你可能把它和FastText混在一起了。但是,您的模型应该存在一些问题。因为在标准的嵌入集合中,这些概念之间的距离应该很大。“苹果”和“应用”之间的MUSE FastText相似度只有0.15,这是相当低的。
我使用Gensim的函数
model.similarity("apply", "apple")因此,您可能需要修复学习参数或仅使用预先训练的模型。
https://stackoverflow.com/questions/52144567
复制相似问题