文章/答案/技术大牛

发布

社区首页 >问答首页 >微调预培训的word2vec Google新闻

问微调预培训的word2vec Google新闻
EN

Stack Overflow用户

提问于 2017-09-15 16:48:47

回答 2查看 3.7K关注 0票数 3

我目前使用的Word2Vec模式是在谷歌新闻语料库上培训的(来自这里)，因为这是直到2013年才对新闻进行培训的，因此我需要更新矢量，并根据2013年以后的新闻在词汇表中添加新单词。

假设我在2013年后有了一个新的新闻语料库。我可以重新培训或微调或更新谷歌新闻Word2Vec模式吗？能用Gensim做吗？可以用FastText来完成吗？

python

gensim

word2vec

google-news

fasttext

回答 2

Stack Overflow用户

发布于 2018-06-18 12:58:23

您可以看看这个：https://github.com/facebookresearch/fastText/pull/423

它所做的事情与您想做的完全相同:下面是链接中的内容：

逐步训练分类模型或词向量模型。

//快速文本监督的\x\x{e76f}\x{e76f} cbow -input train.data -inputModel trained.model.bin -output再培训的其他选项-incr

-incr代表增量培训。

在训练word嵌入时，可以从零开始，每次使用所有数据，或者仅仅在新的数据上。对于分类，我们可以从零开始训练，用所有的数据进行预先训练的单词嵌入，或者只对新的数据进行训练，而不改变词的嵌入。

增量训练实际上意味着用我们以前得到的数据完成训练模型，然后用我们得到的更新的数据对模型进行再训练，而不是从头开始。

票数 3

Stack Overflow用户

发布于 2019-04-18 17:24:54

是的你可以。我最近一直在研究这个问题。

word2vec 参考文献
GloVe 参考文献

编辑: GloVe在训练时需要计算co-occurence矩阵并将其存储在内存中。培训word2vec相对容易

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46244286

复制

相似问题

问微调预培训的word2vec Google新闻
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问微调预培训的word2vec Google新闻EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问微调预培训的word2vec Google新闻
EN