文章/答案/技术大牛

发布

社区首页 >问答首页 >R包'word2vec‘doc2vec函数

问R包'word2vec‘doc2vec函数
EN

Stack Overflow用户

提问于 2020-11-10 15:52:26

回答 1查看 514关注 0票数 0

我是一名学生(计算机科学)。这是我在堆栈溢出中的第一个问题。我真的很感谢你的帮助！(我所指的包称为'word2vec'，这就是为什么标签/标题有点让人费解的原因。)

在对doc2vec函数的描述(这里是https://cran.r-project.org/web/packages/word2vec/word2vec.pdf)中，它说：

文档向量是以向量空间的尺度来标准化文档的一部分的单词的向量之和。这个标度是向量元素的平均内积的平方。

据我所知，doc2vec为每一段增加了一个向量。在我看来，似乎和上面的描述不同。

我对doc2vec的理解是正确的，还是足够接近？以及:引用的实现是否像doc2vec-算法一样工作？

word2vec

doc2vec

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-11-10 17:32:04

许多人使用"Doc2Vec“来指由一篇名为句子和文件的分布式表示 (由Le &Mikolov撰写)的论文引入的Many 2vec类算法。这篇论文将算法称为‘段落向量’，而不使用'Doc2Vec‘这个名字，并且实际上在每个文档中引入了一个额外的向量，就像您描述的那样。(也就是说，文档向量的训练有点像“浮动”伪字向量，这有助于为文档中的每一个训练预测提供输入“上下文”。)

我不熟悉R或R word2vec包，但是从您转发的文档中可以看出，不像doc2vec函数那样实现‘段落向量’算法，其他人称之为'Doc2Vec‘。特别是：

‘分段向量’doc-向量是而不是，一个简单的字和向量。
“图向量”文档向量是通过一个单独的word 2vec类训练过程创建的，该过程与训练同时创建任何必要的字向量。具体而言:这个过程并不是通常用来作为输入的其他一些预先训练过的单词向量，也不是作为第一步创建单词向量。(此外：“段落向量”的PV选项根本没有创建传统的字向量。)

函数的名称似乎很差，如果您需要使用实际的“段落向量”算法，则需要在其他地方查找。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64772221

复制

相似问题

问R包'word2vec‘doc2vec函数
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R包'word2vec‘doc2vec函数EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问R包'word2vec‘doc2vec函数
EN