文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用gensim在我自己的语料库上训练一个经过预先训练的二进制文件？

问如何使用gensim在我自己的语料库上训练一个经过预先训练的二进制文件？
EN

Stack Overflow用户

提问于 2018-07-19 05:24:32

回答 1查看 280关注 0票数 2

嘿，伙计们，我有一个经过预先训练的二进制文件，我想在我的语料库上训练它。

我尝试过的方法:

我尝试从我拥有的bin文件中提取txt文件，并在加载时将它作为word2vec文件使用，并在我自己的语料库中进一步训练它并保存模型，但是模型对于预先训练过的bin文件中的单词表现很差(为此我使用了intersect_word2vec_format命令)。

这里是我使用的脚本。

我的模型应该用什么方法来表现好从预训练的文件和我的语料库中的单词？

nlp

models

gensim

corpus

回答 1

Stack Overflow用户

发布于 2018-07-24 04:33:49

加载模型并将build_vocab与update = True一起使用。

import gensim
from gensim.models import Word2Vec

model = Word2Vec.load('w2vmodel.bin')
my_corpus = ... # load your corpus as sentences here
model.build_vocab(my_corpus, update=True)
model.train(my_corpus)

我不太清楚intersect_word2vec_format对什么时候有帮助，但您可以更多地阅读有关预期用例这里的内容。不过，这似乎并不是普通的向量再训练。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51414910

复制

相似问题

问如何使用gensim在我自己的语料库上训练一个经过预先训练的二进制文件？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用gensim在我自己的语料库上训练一个经过预先训练的二进制文件？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用gensim在我自己的语料库上训练一个经过预先训练的二进制文件？
EN