首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Word2Vec与Gensim参数等价

Word2Vec与Gensim参数等价
EN

Stack Overflow用户
提问于 2015-04-29 09:44:22
回答 1查看 4.5K关注 0票数 3

Gensim是Word2Vec的一个优化的python端口(参见http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/)

我目前正在使用以下向量:http://clic.cimec.unitn.it/composes/semantic-vectors.html

我将用gensim重新运行模型培训,因为他们的模型中有一些噪音标记。因此,我想找出word2vecgensim中的一些等价参数是什么

他们从word2vec中使用的参数是:

  • 2字上下文窗口,PMI加权,无压缩,300 K尺寸

当我训练一个Word2Vec模型时,gensim等价性是什么?

是:

代码语言:javascript
复制
>>> model = Word2Vec(sentences, size=300000, window=2, min_count=5, workers=4)

在gensim中有PMI权重选项吗?

在word2vec中使用的默认min_count是什么?

word2vec中还有另一组参数,如下所示:

  • 5字上下文窗口,10个阴性样本,次抽样,400维。

中是否存在负样本参数?

在gensim中次采样的参数等价性是什么?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-05-11 05:20:29

  1. 您链接到的论文比较了许多方案中的单词嵌入,包括连续的单词包(CBOW)。CBOW是Gensim "word2vec“模型中实现的模型之一。本文还讨论了由奇异值分解得到的不同加权格式的词嵌入,其中有些涉及PMI。SVD和word2vec之间没有等价之处,但是如果您想要在gensim中进行SVD,则在自然语言处理中被称为"LSA“或”潜在语义分析“。
  2. 默认情况下,min_count参数设置为5,可以看到这里
  3. 负采样和分层软最大是估计离散空间上概率分布的两种近似推理方法(当正常的Softmax计算量太大时使用)。Gensim的word2vec实现了这两个功能。默认情况下,它使用层次化的softmax,但是您可以通过将超参数negative设置为大于零来使用负采样。这在gensim的代码这里中也有记录。
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29939984

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档