可以用自定义文本数据集(属于特定域的文本数据)更新Google嵌入吗?
-字嵌入谷歌新闻Word2Vec显然帮助我们提供了一组健壮的单词向量,但不幸的是,它不能用于大多数业务案例。例如:
embeddings.most_similar('python')
[('pythons', 0.6688377857208252),
('Burmese_python', 0.6680365204811096),
('snake', 0.6606293320655823),
('crocodile', 0.6591362953186035),
('boa_constrictor', 0.6443518996238708),
('alligator', 0.6421656608581543),
('reptile', 0.6387744545936584),
('albino_python', 0.6158879995346069),
('croc', 0.6083582639694214),
('lizard', 0.601341724395752)]这个输出显然不是我们想要的。我们可以使用gensim库为这个业务案例创建一个定制的word2vec模型,但是它并不是详尽的(词汇量相对较少)。在这种情况下,最佳做法是什么?是否可以更新预先训练过的单词嵌入模型的权重,从而使单词嵌入也可以从域文本数据中学习?
发布于 2018-12-05 13:54:00
转移-学习是一种可能的方法:
这是一个可用作基础的实现,可用于步骤1的修改
https://datascience.stackexchange.com/questions/42157
复制相似问题