首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >更新谷歌新闻Word2vec词嵌入?

更新谷歌新闻Word2vec词嵌入?
EN

Data Science用户
提问于 2018-12-05 10:13:41
回答 1查看 900关注 0票数 2

可以用自定义文本数据集(属于特定域的文本数据)更新Google嵌入吗?

-字嵌入谷歌新闻Word2Vec显然帮助我们提供了一组健壮的单词向量,但不幸的是,它不能用于大多数业务案例。例如:

代码语言:javascript
复制
embeddings.most_similar('python')

[('pythons', 0.6688377857208252),
 ('Burmese_python', 0.6680365204811096),
 ('snake', 0.6606293320655823),
 ('crocodile', 0.6591362953186035),
 ('boa_constrictor', 0.6443518996238708),
 ('alligator', 0.6421656608581543),
 ('reptile', 0.6387744545936584),
 ('albino_python', 0.6158879995346069),
 ('croc', 0.6083582639694214),
 ('lizard', 0.601341724395752)]

这个输出显然不是我们想要的。我们可以使用gensim库为这个业务案例创建一个定制的word2vec模型,但是它并不是详尽的(词汇量相对较少)。在这种情况下,最佳做法是什么?是否可以更新预先训练过的单词嵌入模型的权重,从而使单词嵌入也可以从域文本数据中学习?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-12-05 13:54:00

转移-学习是一种可能的方法:

  1. 设计并实现了与Googleword2vec的设计匹配的神经网络(层数、激活函数等)。
  2. 用这些向量预初始化权重
  3. 对特定领域的语料库进行再培训

是一个可用作基础的实现,可用于步骤1的修改

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/42157

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档