文章/答案/技术大牛

发布

问词向量和段落向量查询
EN

Stack Overflow用户

提问于 2016-11-07 18:30:20

回答 1查看 509关注 0票数 0

在Gensim的实现中，我试图理解word2vec和doc2vec向量之间的关系。在我的应用程序中，我用相同的标签(主题)标记多个文档，我正在使用dbow_words=1在我的语料库上训练一个dbow_words=1模型，以训练单词向量。我已经能够以这种方式获得单词和文档向量之间的相似之处，这对ex来说是非常有意义的。获取类似于word的文档标签-doc2vec_model.docvecs.most_similar(正=[doc2vec_model“management”，topn = 50))

然而，我的问题是关于word2vec和doc2vec向量之间计算相似性的理论解释。假设在相同维数(d = 200)的同一语料库上训练时，单词向量和文档向量总是可以被比较，以便为文档标签找到相似的词或为一个词找到类似的文档标签。任何建议/想法都是受欢迎的。

问题2:我的其他问题是关于一个词的高/低频频率在最终的word2vec模型中的影响。如果wordA和wordB在文档的特定文档标签(Set)中具有相似的上下文，但是wordA的频率要比wordB高得多，那么wordB是否与相应的文档标签有更高的相似度。我试图通过对语料库的时间取样来训练多个word2vec模型，并想知道这样的假设:随着单词越来越频繁，假设上下文相对相似，文档标签的相似度是否也会增加。我做这个假设是错的吗？任何建议/想法都非常欢迎。

谢谢你，曼尼什

doc2vec

similarity

gensim

word2vec

temporal

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-01-19 03:35:24

在训练模式中，单词向量和doctag向量在训练中交替使用，用于相同的周边单词预测-任务，它们往往是有意义的可比较的。(您的模式DBOW与交错跳格字训练相适应，也就是论文“带段落向量的文档嵌入”所使用的模式。)

你的第二个问题是抽象的和推测的；我认为你必须亲自测试这些想法。Word2Vec/Doc2Vec过程训练向量在模型约束和与其它向量质量的权衡条件下，能够很好地完成一定的机械预测任务。由此产生的空间排列恰好对其他目的有用--排序/绝对相似、沿着某些概念线的相似性、分类等--这只是一种观察到的、实用的好处。这是一种“有效的技巧”，可能会产生洞见，但许多模型根据不同的参数选择或语料库特性而变化的方式，在理论上或实验上都没有得到解决。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40472070

复制

相似问题

问词向量和段落向量查询
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问词向量和段落向量查询EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问词向量和段落向量查询
EN