嘿,伙计们,我有一个经过预先训练的二进制文件,我想在我的语料库上训练它。
我尝试过的方法:
我尝试从我拥有的bin文件中提取txt文件,并在加载时将它作为word2vec文件使用,并在我自己的语料库中进一步训练它并保存模型,但是模型对于预先训练过的bin文件中的单词表现很差(为此我使用了intersect_word2vec_format命令)。
这里是我使用的脚本。
我的模型应该用什么方法来表现好从预训练的文件和我的语料库中的单词?
发布于 2018-07-24 04:33:49
加载模型并将build_vocab与update = True一起使用。
import gensim
from gensim.models import Word2Vec
model = Word2Vec.load('w2vmodel.bin')
my_corpus = ... # load your corpus as sentences here
model.build_vocab(my_corpus, update=True)
model.train(my_corpus)我不太清楚intersect_word2vec_format对什么时候有帮助,但您可以更多地阅读有关预期用例这里的内容。不过,这似乎并不是普通的向量再训练。
https://stackoverflow.com/questions/51414910
复制相似问题