在Gensim的实现中,我试图理解word2vec和doc2vec向量之间的关系。在我的应用程序中,我用相同的标签(主题)标记多个文档,我正在使用dbow_words=1在我的语料库上训练一个dbow_words=1模型,以训练单词向量。我已经能够以这种方式获得单词和文档向量之间的相似之处,这对ex来说是非常有意义的。获取类似于word的文档标签-doc2vec_model.docvecs.most_similar(正=[doc2vec_model“management”,topn = 50))
然而,我的问题是关于word2vec和doc2vec向量之间计算相似性的理论解释。假设在相同维数(d = 200)的同一语料库上训练时,单词向量和文档向量总是可以被比较,以便为文档标签找到相似的词或为一个词找到类似的文档标签。任何建议/想法都是受欢迎的。
问题2:我的其他问题是关于一个词的高/低频频率在最终的word2vec模型中的影响。如果wordA和wordB在文档的特定文档标签(Set)中具有相似的上下文,但是wordA的频率要比wordB高得多,那么wordB是否与相应的文档标签有更高的相似度。我试图通过对语料库的时间取样来训练多个word2vec模型,并想知道这样的假设:随着单词越来越频繁,假设上下文相对相似,文档标签的相似度是否也会增加。我做这个假设是错的吗?任何建议/想法都非常欢迎。
谢谢你,曼尼什
发布于 2017-01-19 03:35:24
在训练模式中,单词向量和doctag向量在训练中交替使用,用于相同的周边单词预测-任务,它们往往是有意义的可比较的。(您的模式DBOW与交错跳格字训练相适应,也就是论文“带段落向量的文档嵌入”所使用的模式。)
你的第二个问题是抽象的和推测的;我认为你必须亲自测试这些想法。Word2Vec/Doc2Vec过程训练向量在模型约束和与其它向量质量的权衡条件下,能够很好地完成一定的机械预测任务。由此产生的空间排列恰好对其他目的有用--排序/绝对相似、沿着某些概念线的相似性、分类等--这只是一种观察到的、实用的好处。这是一种“有效的技巧”,可能会产生洞见,但许多模型根据不同的参数选择或语料库特性而变化的方式,在理论上或实验上都没有得到解决。
https://stackoverflow.com/questions/40472070
复制相似问题