问Doc2Vec如何评估生词？
EN

Stack Overflow用户

提问于 2020-07-09 05:17:29

回答 1查看 43关注 0票数 0

我正在尝试查找与新文档最相似的文档。首先训练了doc2vec模型，现在我引入了一个新文档；我已经推断出新文档的向量，但是我不太了解doc2vec的细节……如果新文档中有许多旧模型从未遇到过的单词(连续)，如何处理？

发布于 2020-07-09 05:44:01

Doc2Vec模型只能考虑它在训练过程中从训练文本中学习的推理中的单词。不认识的单词会被简单地忽略。

一个含义是:传递给infer_vector()的包含所有新词的文档将返回随机结果。所有的推理都是从一个低幅度的随机向量开始的，然后在一个类似训练的过程中对其进行调整，以更好地预测出现的单词。但在没有已知单词的情况下，该模型根本无法执行增量改进的预测，因此在初始化后推断是无操作的。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62803770

复制

相似问题

问Doc2Vec如何评估生词？EN