首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >微调预培训的word2vec Google新闻

微调预培训的word2vec Google新闻
EN

Stack Overflow用户
提问于 2017-09-15 16:48:47
回答 2查看 3.7K关注 0票数 3

我目前使用的Word2Vec模式是在谷歌新闻语料库上培训的(来自这里),因为这是直到2013年才对新闻进行培训的,因此我需要更新矢量,并根据2013年以后的新闻在词汇表中添加新单词。

假设我在2013年后有了一个新的新闻语料库。我可以重新培训或微调或更新谷歌新闻Word2Vec模式吗?能用Gensim做吗?可以用FastText来完成吗?

EN

回答 2

Stack Overflow用户

发布于 2018-06-18 12:58:23

您可以看看这个:https://github.com/facebookresearch/fastText/pull/423

它所做的事情与您想做的完全相同:下面是链接中的内容:

逐步训练分类模型或词向量模型。

//快速文本监督的\x\x{e76f}\x{e76f} cbow -input train.data -inputModel trained.model.bin -output再培训的其他选项-incr

-incr代表增量培训。

在训练word嵌入时,可以从零开始,每次使用所有数据,或者仅仅在新的数据上。对于分类,我们可以从零开始训练,用所有的数据进行预先训练的单词嵌入,或者只对新的数据进行训练,而不改变词的嵌入。

增量训练实际上意味着用我们以前得到的数据完成训练模型,然后用我们得到的更新的数据对模型进行再训练,而不是从头开始。

票数 3
EN

Stack Overflow用户

发布于 2019-04-18 17:24:54

是的你可以。我最近一直在研究这个问题。

编辑: GloVe在训练时需要计算co-occurence矩阵并将其存储在内存中。培训word2vec相对容易

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46244286

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档