我使用预先训练过的spacy单词嵌入来预测文档的相似性。因为我有很多特定于领域的单词,所以我想在一个包含我的领域特定词汇表的小数据集上微调我的向量。
我的想法是用我的数据重新训练空间模型。但是,由于spacy中的单词向量是内置的,我不知道如何做到这一点。有办法再用我的数据训练空间模型吗?
经过一些研究,我发现,我可以训练我自己的载体使用Gensim。在那里,我必须下载一个预先训练过的模型,例如Google数据集模型,然后我可以用我的数据集再次训练它。这是唯一的办法吗?还是有办法继续我的空间模型?
任何帮助都是非常感谢的。
发布于 2020-10-13 11:12:14
更新:这里正确的术语是“增量培训”,而这是不可能与预先培训的spacy模型。然而,在gensim模型上执行增量培训是可能的。我在另一个预先训练过的向量集的帮助下完成了这个任务(我使用了fasttext模型),然后我用自己的语料库训练了这个用fasttext向量训练的gensim模型。这件事很好用
发布于 2020-10-13 11:22:00
如果您预先训练过域中包含快速文本的单词嵌入,并且希望将它们与spaCy一起使用,则可以使用类似于以下内容的新的快速文本词汇表和向量扩展/替换现有spaCy模型中的标记:
https://github.com/explosion/spaCy/issues/2538#issuecomment-404888091
或者白手起家:
https://spacy.io/usage/vectors-similarity#converting
这种方法的优点是:(1)您可以继续使用spacy;(2)如果在经过预先训练的spaCy中存在一些标记,但在您的语料库中没有这些标记,那么您仍然可以使用它们。
https://stackoverflow.com/questions/63284211
复制相似问题