我是一名学生(计算机科学)。这是我在堆栈溢出中的第一个问题。我真的很感谢你的帮助!(我所指的包称为'word2vec',这就是为什么标签/标题有点让人费解的原因。)
在对doc2vec函数的描述(这里是https://cran.r-project.org/web/packages/word2vec/word2vec.pdf)中,它说:
文档向量是以向量空间的尺度来标准化文档的一部分的单词的向量之和。这个标度是向量元素的平均内积的平方。
据我所知,doc2vec为每一段增加了一个向量。在我看来,似乎和上面的描述不同。
我对doc2vec的理解是正确的,还是足够接近?以及:引用的实现是否像doc2vec-算法一样工作?
发布于 2020-11-10 17:32:04
许多人使用"Doc2Vec“来指由一篇名为句子和文件的分布式表示 (由Le &Mikolov撰写)的论文引入的Many 2vec类算法。这篇论文将算法称为‘段落向量’,而不使用'Doc2Vec‘这个名字,并且实际上在每个文档中引入了一个额外的向量,就像您描述的那样。(也就是说,文档向量的训练有点像“浮动”伪字向量,这有助于为文档中的每一个训练预测提供输入“上下文”。)
我不熟悉R或R word2vec包,但是从您转发的文档中可以看出,不像doc2vec函数那样实现‘段落向量’算法,其他人称之为'Doc2Vec‘。特别是:
函数的名称似乎很差,如果您需要使用实际的“段落向量”算法,则需要在其他地方查找。
https://stackoverflow.com/questions/64772221
复制相似问题