您好,我正在使用Gensim来查找文档之间的相似度,因此我对文档进行TF-IDF并计算余弦相似度。当我有新文档时,我可以使用index[tfidfvec]计算这个文档与以前文档的相似度,但是这样TF-IDF不会更新,并且在相似度计算中不考虑新词。有没有什么解决方案可以快速更新TF-IDF而无需重新计算整个矩阵,或者对我的问题有什么最好的解决方案?
发布于 2020-08-09 04:40:14
我认为这是不可能的。因为当您向语料库添加新文档时,TF-IDF的词汇表将发生变化,而当词汇表发生变化时,所有TF-IDF值也将发生变化,并且需要重新计算整个矩阵。但this link可能会对您有所帮助。
https://stackoverflow.com/questions/53929657
复制相似问题