我目前使用的Word2Vec模式是在谷歌新闻语料库上培训的(来自这里),因为这是直到2013年才对新闻进行培训的,因此我需要更新矢量,并根据2013年以后的新闻在词汇表中添加新单词。
假设我在2013年后有了一个新的新闻语料库。我可以重新培训或微调或更新谷歌新闻Word2Vec模式吗?能用Gensim做吗?可以用FastText来完成吗?
发布于 2018-06-18 12:58:23
您可以看看这个:https://github.com/facebookresearch/fastText/pull/423
它所做的事情与您想做的完全相同:下面是链接中的内容:
逐步训练分类模型或词向量模型。
//快速文本监督的\x\x{e76f}\x{e76f} cbow -input train.data -inputModel trained.model.bin -output再培训的其他选项-incr
-incr代表增量培训。
在训练word嵌入时,可以从零开始,每次使用所有数据,或者仅仅在新的数据上。对于分类,我们可以从零开始训练,用所有的数据进行预先训练的单词嵌入,或者只对新的数据进行训练,而不改变词的嵌入。
增量训练实际上意味着用我们以前得到的数据完成训练模型,然后用我们得到的更新的数据对模型进行再训练,而不是从头开始。
https://stackoverflow.com/questions/46244286
复制相似问题