首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何微调空间词向量

如何微调空间词向量
EN

Stack Overflow用户
提问于 2020-08-06 13:03:03
回答 2查看 439关注 0票数 0

我使用预先训练过的spacy单词嵌入来预测文档的相似性。因为我有很多特定于领域的单词,所以我想在一个包含我的领域特定词汇表的小数据集上微调我的向量。

我的想法是用我的数据重新训练空间模型。但是,由于spacy中的单词向量是内置的,我不知道如何做到这一点。有办法再用我的数据训练空间模型吗?

经过一些研究,我发现,我可以训练我自己的载体使用Gensim。在那里,我必须下载一个预先训练过的模型,例如Google数据集模型,然后我可以用我的数据集再次训练它。这是唯一的办法吗?还是有办法继续我的空间模型?

任何帮助都是非常感谢的。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-10-13 11:12:14

更新:这里正确的术语是“增量培训”,而这是不可能与预先培训的spacy模型。然而,在gensim模型上执行增量培训是可能的。我在另一个预先训练过的向量集的帮助下完成了这个任务(我使用了fasttext模型),然后我用自己的语料库训练了这个用fasttext向量训练的gensim模型。这件事很好用

票数 2
EN

Stack Overflow用户

发布于 2020-10-13 11:22:00

如果您预先训练过域中包含快速文本的单词嵌入,并且希望将它们与spaCy一起使用,则可以使用类似于以下内容的新的快速文本词汇表和向量扩展/替换现有spaCy模型中的标记:

https://github.com/explosion/spaCy/issues/2538#issuecomment-404888091

或者白手起家:

https://spacy.io/usage/vectors-similarity#converting

这种方法的优点是:(1)您可以继续使用spacy;(2)如果在经过预先训练的spaCy中存在一些标记,但在您的语料库中没有这些标记,那么您仍然可以使用它们。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63284211

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档