我正在做一个使用FastText的文本相似度项目,我找到的训练模型的基本例子是:
from gensim.models import FastText
model = FastText(tokens, size=100, window=3, min_count=1, iter=10, sorted_vocab=1)据我所知,由于我指定了向量和ngram大小,模型在这里是从头开始训练的,如果数据集很小,我会检测出很好的结果。
我发现的另一个选择是加载原始的维基百科模型,这是一个很大的文件:
from gensim.models.wrappers import FastText
model = FastText.load_fasttext_format('wiki.simple')我的问题是,我可以加载维基百科或任何其他模型,并根据我的数据集对其进行微调吗?
发布于 2019-09-10 11:30:30
如果您有一个带标签的数据集,那么您应该能够对其进行微调。This GitHub issue解释说,您希望使用pretrainedVectors选项。您将从维基百科预先训练的向量开始,然后在您的数据集上进行训练。似乎gensim可以做到这一点,但根据this GH issue的说法,已经有了一些bug。
https://stackoverflow.com/questions/57798839
复制相似问题