我正在尝试查找与新文档最相似的文档。首先训练了doc2vec模型,现在我引入了一个新文档;我已经推断出新文档的向量,但是我不太了解doc2vec的细节……如果新文档中有许多旧模型从未遇到过的单词(连续),如何处理?
发布于 2020-07-09 05:44:01
Doc2Vec模型只能考虑它在训练过程中从训练文本中学习的推理中的单词。不认识的单词会被简单地忽略。
一个含义是:传递给infer_vector()的包含所有新词的文档将返回随机结果。所有的推理都是从一个低幅度的随机向量开始的,然后在一个类似训练的过程中对其进行调整,以更好地预测出现的单词。但在没有已知单词的情况下,该模型根本无法执行增量改进的预测,因此在初始化后推断是无操作的。
https://stackoverflow.com/questions/62803770
复制相似问题