假设我有一个短句语料库,字数从1到500个左右,平均字数在9个左右。如果我用Word2vec (默认情况下)训练Gensim window=5模型,我应该全部使用这些句子吗?还是我应该删除字数较低的句子?如果是这样的话,是否有一个经验规则的最低字数?
发布于 2021-05-13 18:45:03
对于word2vec算法来说,只有一个单词的文本本质上是“空”的:没有相邻的词,这对于所有的训练模式都是必要的。你可以把它们扔了,但把它们留在里面也没什么害处。他们根本就是不行动的。
任何有两个或更多单词的文本都可以为培训做出贡献。
https://stackoverflow.com/questions/67523963
复制相似问题