我意识到FastText 这里的原始实现是存在的,您可以通过它使用fasttext.train_unsupervised来生成单词向量(参见此链接作为示例)。然而,事实证明gensim也支持快速文本,其API与word2vec相似。参见这里的示例。
我想知道这两个实现之间是否有区别?文档并不清楚,,但它们都是模仿论文 用子词信息丰富词向量吗?如果是,那么为什么要使用gensim的快速文本而不是快速文本呢?
发布于 2021-08-18 15:27:49
我发现一个与根西姆文献不同的地方
word_ngrams (int, optional) – In Facebook’s FastText, “max length of word ngram” -
but gensim only supports the default of 1 (regular unigram word handling).这意味着gensim只支持unigram,而不支持bigram或trigram。
https://stackoverflow.com/questions/68834211
复制相似问题