首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >词向量和段落向量查询

词向量和段落向量查询
EN

Stack Overflow用户
提问于 2016-11-07 18:30:20
回答 1查看 509关注 0票数 0

在Gensim的实现中,我试图理解word2vec和doc2vec向量之间的关系。在我的应用程序中,我用相同的标签(主题)标记多个文档,我正在使用dbow_words=1在我的语料库上训练一个dbow_words=1模型,以训练单词向量。我已经能够以这种方式获得单词和文档向量之间的相似之处,这对ex来说是非常有意义的。获取类似于word的文档标签-doc2vec_model.docvecs.most_similar(正=[doc2vec_model“management”,topn = 50))

然而,我的问题是关于word2vec和doc2vec向量之间计算相似性的理论解释。假设在相同维数(d = 200)的同一语料库上训练时,单词向量和文档向量总是可以被比较,以便为文档标签找到相似的词或为一个词找到类似的文档标签。任何建议/想法都是受欢迎的。

问题2:我的其他问题是关于一个词的高/低频频率在最终的word2vec模型中的影响。如果wordA和wordB在文档的特定文档标签(Set)中具有相似的上下文,但是wordA的频率要比wordB高得多,那么wordB是否与相应的文档标签有更高的相似度。我试图通过对语料库的时间取样来训练多个word2vec模型,并想知道这样的假设:随着单词越来越频繁,假设上下文相对相似,文档标签的相似度是否也会增加。我做这个假设是错的吗?任何建议/想法都非常欢迎。

谢谢你,曼尼什

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-01-19 03:35:24

在训练模式中,单词向量和doctag向量在训练中交替使用,用于相同的周边单词预测-任务,它们往往是有意义的可比较的。(您的模式DBOW与交错跳格字训练相适应,也就是论文“带段落向量的文档嵌入”所使用的模式。)

你的第二个问题是抽象的和推测的;我认为你必须亲自测试这些想法。Word2Vec/Doc2Vec过程训练向量在模型约束和与其它向量质量的权衡条件下,能够很好地完成一定的机械预测任务。由此产生的空间排列恰好对其他目的有用--排序/绝对相似、沿着某些概念线的相似性、分类等--这只是一种观察到的、实用的好处。这是一种“有效的技巧”,可能会产生洞见,但许多模型根据不同的参数选择或语料库特性而变化的方式,在理论上或实验上都没有得到解决。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40472070

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档