我正在使用English-medium作为spacy,我遇到了一种测试我对输出的理解的情况。
简而言之,我有一个单词,它不是OOV (token.is_oov == False),但没有向量(token.has_vector == False)。
更有可能的是,我忽略了一件明显的事情,但我直观地理解OOV缺少一个向量,在本例中,长度为300的向量是0。
简单地说,一个词汇表中的标记怎么可能缺少向量呢?
发布于 2021-03-01 04:57:42
对于我未来的自己:我没有考虑语言模型。
根据docs,685K个令牌,其中20k个具有向量。向量的Top-N是有意义的。
https://stackoverflow.com/questions/66413553
复制相似问题