文章/答案/技术大牛

发布

社区首页 >问答首页 >更新谷歌新闻Word2vec词嵌入？

问更新谷歌新闻Word2vec词嵌入？
EN

Data Science用户

提问于 2018-12-05 10:13:41

回答 1查看 900关注 0票数 2

可以用自定义文本数据集(属于特定域的文本数据)更新Google嵌入吗？

-字嵌入谷歌新闻Word2Vec显然帮助我们提供了一组健壮的单词向量，但不幸的是，它不能用于大多数业务案例。例如：

embeddings.most_similar('python')

[('pythons', 0.6688377857208252),
 ('Burmese_python', 0.6680365204811096),
 ('snake', 0.6606293320655823),
 ('crocodile', 0.6591362953186035),
 ('boa_constrictor', 0.6443518996238708),
 ('alligator', 0.6421656608581543),
 ('reptile', 0.6387744545936584),
 ('albino_python', 0.6158879995346069),
 ('croc', 0.6083582639694214),
 ('lizard', 0.601341724395752)]

这个输出显然不是我们想要的。我们可以使用gensim库为这个业务案例创建一个定制的word2vec模型，但是它并不是详尽的(词汇量相对较少)。在这种情况下，最佳做法是什么？是否可以更新预先训练过的单词嵌入模型的权重，从而使单词嵌入也可以从域文本数据中学习？

gensim

word2vec

word-embeddings

nlp

回答 1

Data Science用户

回答已采纳

发布于 2018-12-05 13:54:00

转移-学习是一种可能的方法：

设计并实现了与Googleword2vec的设计匹配的神经网络(层数、激活函数等)。
用这些向量预初始化权重
对特定领域的语料库进行再培训

这是一个可用作基础的实现，可用于步骤1的修改

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/42157

复制

相似问题

问更新谷歌新闻Word2vec词嵌入？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问更新谷歌新闻Word2vec词嵌入？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问更新谷歌新闻Word2vec词嵌入？
EN