我正在尝试查找两个文档(包含大约15000条记录)之间的相似度分数。
我在python中使用了两种方法: 1. TFIDF (Scikit learn) 2. Word2Vec (gensim,谷歌预训练向量)
Example1
Doc1-单击"Bills“选项卡
Doc2-单击"CHAPS“选项卡
第一种方法给出0.9分。第二种方法给出1分
Example2
文档1-请参阅以下要求:
Doc2-请参阅以下要求
第一种方法给出1分。第二种方法得到0.98分
有人能告诉我:
为什么在Example1中,Word2Vec会给出1,尽管它们非常不同
而在Example2中,Word2Vec给出的是0.98%,尽管它们的差异只有":“
发布于 2019-08-23 21:33:33
举个例子,word2vec的词袋里可能没有Bill和CHAPS这两个词。这就是说,去掉这些单词,句子是相同的。
在示例2中,可能在word2vec算法的标记化中,它将"requirements:“作为一个令牌,而将"requirements”作为另一个令牌,这就是为什么它们的向量略有不同,因此它们并不完全相同。
*Word2vec通过取其词向量的平均值来计算句子向量。如果一个单词不在word2vec的词包中,那么它会有vector=0,0,...0。
https://stackoverflow.com/questions/57626276
复制相似问题