使用Gensim < 4.0,我们可以使用以下代码重新训练word2vec模型:
model = Word2Vec.load_word2vec_format("GoogleNews-vectors-negative300.bin", binary=True)
model.train(my_corpus, total_examples=len(my_corpus), epochs=model.epochs)然而,我理解的是Gensim 4.0不再支持Word2Vec.load_word2vec_format。相反,我只能加载keyedVectors。
如何用我的领域专用语料库微调一个预先训练过的word2vec模型(例如GoogleNews训练的模型)?
发布于 2022-03-06 19:30:22
您可以使用Gensim 4.0尝试以下步骤对特定域的语料库进行微调:
合并为从原始Cword2vec工具格式加载的输入隐藏权重矩阵,其中它与当前词汇表相交。现有词汇表中没有添加任何单词,但相交的单词采用文件的权重,而不相交的单词则单独使用。
w2vModel.wv.intersect_word2vec_format('pretrained.bin', binary=True)https://datascience.stackexchange.com/questions/97568
复制相似问题