首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Word2vec模型查询

Word2vec模型查询
EN

Stack Overflow用户
提问于 2017-02-09 15:59:53
回答 1查看 248关注 0票数 0

我使用word2vec gensim包在我的数据集上训练了一个word2vec模型。我的数据集大约有131,681个唯一的单词,但模型输出了一个形状为(47629,100)的向量矩阵。因此,只有47,629个单词具有与其关联的向量。剩下的怎么办?为什么我不能得到每个唯一单词的100维向量?

EN

回答 1

Stack Overflow用户

发布于 2017-02-09 16:48:00

gensim Word2Vec类使用的默认min_count为5,这意味着任何在语料库中出现少于5次的单词都将被忽略。如果启用INFO级别日志记录,您应该会看到有关此操作和培训采取的其他步骤的记录消息。

请注意,很难用很少的(在不变的)用法示例来学习有意义的向量。因此,虽然你可以将min_count降低到1,但你不应该期望这些向量是非常好的-即使试图训练它们也可能会使其他向量变得更差。(低出现的单词本质上可能是噪声,干扰了其他单词向量的训练,这些其他更频繁的单词确实有足够多/变化的例子来更好。)

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42131107

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档