Gensim是Word2Vec的一个优化的python端口(参见http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/)
我目前正在使用以下向量:http://clic.cimec.unitn.it/composes/semantic-vectors.html
我将用gensim重新运行模型培训,因为他们的模型中有一些噪音标记。因此,我想找出word2vec在gensim中的一些等价参数是什么
他们从word2vec中使用的参数是:
当我训练一个Word2Vec模型时,gensim等价性是什么?
是:
>>> model = Word2Vec(sentences, size=300000, window=2, min_count=5, workers=4)在gensim中有PMI权重选项吗?
在word2vec中使用的默认min_count是什么?
word2vec中还有另一组参数,如下所示:
中是否存在负样本参数?
在gensim中次采样的参数等价性是什么?
发布于 2015-05-11 05:20:29
min_count参数设置为5,可以看到这里。word2vec实现了这两个功能。默认情况下,它使用层次化的softmax,但是您可以通过将超参数negative设置为大于零来使用负采样。这在gensim的代码这里中也有记录。https://stackoverflow.com/questions/29939984
复制相似问题