首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用gensim在我自己的语料库上训练一个经过预先训练的二进制文件?

如何使用gensim在我自己的语料库上训练一个经过预先训练的二进制文件?
EN

Stack Overflow用户
提问于 2018-07-19 05:24:32
回答 1查看 280关注 0票数 2

嘿,伙计们,我有一个经过预先训练的二进制文件,我想在我的语料库上训练它。

我尝试过的方法:

我尝试从我拥有的bin文件中提取txt文件,并在加载时将它作为word2vec文件使用,并在我自己的语料库中进一步训练它并保存模型,但是模型对于预先训练过的bin文件中的单词表现很差(为此我使用了intersect_word2vec_format命令)。

这里是我使用的脚本。

我的模型应该用什么方法来表现好从预训练的文件和我的语料库中的单词?

EN

回答 1

Stack Overflow用户

发布于 2018-07-24 04:33:49

加载模型并将build_vocabupdate = True一起使用。

代码语言:javascript
复制
import gensim
from gensim.models import Word2Vec

model = Word2Vec.load('w2vmodel.bin')
my_corpus = ... # load your corpus as sentences here
model.build_vocab(my_corpus, update=True)
model.train(my_corpus)

我不太清楚intersect_word2vec_format对什么时候有帮助,但您可以更多地阅读有关预期用例这里的内容。不过,这似乎并不是普通的向量再训练。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51414910

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档