发布于 2017-11-08 17:19:45
en_vectors_web_lg包完全包含原始GloVe模型提供的所有向量。en_core_web_lg模型使用v1.x en_core_web_lg模型中的词汇表,该模型从内存中删除所有在100亿字转储的Reddit注释中发生的少于10次的条目。
理论上,大多数被移除的向量应该是spaCy令牌程序从未产生的东西。然而,早期关于完整GloVe向量的实验确实比目前的NER模型的分数略高--所以我们有可能因为失去额外的向量而忽略了一些东西。我将对此做更多的实验,并可能将lg模型转换为包含未修剪的向量表,特别是现在我们有了md模型,这与当前的lg包相比达成了更好的妥协。
https://stackoverflow.com/questions/47183876
复制相似问题