文章/答案/技术大牛

发布

社区首页 >问答首页 >我可以使用公共预培训的word2vec，并继续培训它的领域特定的文本？

问我可以使用公共预培训的word2vec，并继续培训它的领域特定的文本？
EN

Data Science用户

提问于 2018-08-21 13:02:56

回答 2查看 2.5K关注 0票数 5

我有一套来自服装领域的评论，大约100000篇评论(200万字)。我想训练word2vec用它做一些很酷的NLP员工。

然而，规模不足以创建足够的word2vec模型，它需要数十亿字。

因此，我们的想法是使用公共语料库(如维基百科)，甚至使用一些预先训练过的模型(例如，gensim酷框架)并添加我的领域特定文本。我假设这个模型会注意到未见过的公开单词，并且可以纠正普通单词的向量。

说得通吗？这两百万字会有什么效果吗？

word2vec

gensim

nlp

回答 2

Data Science用户

发布于 2018-08-31 20:07:41

经过fastText预培训的模型应该可以提高分类任务。

另一方面，gensim可以加载模型并使用新的文本进行培训，但是如果您需要解释新单词，则需要使用

Build_vocab(update=True.)

因此，您可以使用fastText预培训的嵌入到gensim和更新您的文本。

票数 2

Data Science用户

发布于 2018-10-01 04:32:48

是的，你可以微调你的嵌入，同时使用预先训练的字向量.如果使用的是tensorflow，则在tf.get_variable参数中设置trainable=True。它能起作用的原因是，只有200万字将从预先训练过的嵌入中提取出来。这些嵌入已经接近局部最优，并且可以在非常少的迭代中进一步优化。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/37240

复制

相似问题

问我可以使用公共预培训的word2vec，并继续培训它的领域特定的文本？
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我可以使用公共预培训的word2vec，并继续培训它的领域特定的文本？EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问我可以使用公共预培训的word2vec，并继续培训它的领域特定的文本？
EN