我有一套来自服装领域的评论,大约100000篇评论(200万字)。我想训练word2vec用它做一些很酷的NLP员工。
然而,规模不足以创建足够的word2vec模型,它需要数十亿字。
因此,我们的想法是使用公共语料库(如维基百科),甚至使用一些预先训练过的模型(例如,gensim酷框架)并添加我的领域特定文本。我假设这个模型会注意到未见过的公开单词,并且可以纠正普通单词的向量。
说得通吗?这两百万字会有什么效果吗?
发布于 2018-08-31 20:07:41
经过fastText预培训的模型应该可以提高分类任务。
另一方面,gensim可以加载模型并使用新的文本进行培训,但是如果您需要解释新单词,则需要使用
Build_vocab(update=True.)
因此,您可以使用fastText预培训的嵌入到gensim和更新您的文本。
发布于 2018-10-01 04:32:48
是的,你可以微调你的嵌入,同时使用预先训练的字向量.如果使用的是tensorflow,则在tf.get_variable参数中设置trainable=True。它能起作用的原因是,只有200万字将从预先训练过的嵌入中提取出来。这些嵌入已经接近局部最优,并且可以在非常少的迭代中进一步优化。
https://datascience.stackexchange.com/questions/37240
复制相似问题