首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于训练Gensim Word2vec模型的每个句子的最小字数

用于训练Gensim Word2vec模型的每个句子的最小字数
EN

Stack Overflow用户
提问于 2021-05-13 17:56:41
回答 1查看 128关注 0票数 0

假设我有一个短句语料库,字数从1到500个左右,平均字数在9个左右。如果我用Word2vec (默认情况下)训练Gensim window=5模型,我应该全部使用这些句子吗?还是我应该删除字数较低的句子?如果是这样的话,是否有一个经验规则的最低字数?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-05-13 18:45:03

对于word2vec算法来说,只有一个单词的文本本质上是“空”的:没有相邻的词,这对于所有的训练模式都是必要的。你可以把它们扔了,但把它们留在里面也没什么害处。他们根本就是不行动的。

任何有两个或更多单词的文本都可以为培训做出贡献。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/67523963

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档