问Spacy2.0 en_vectors_web_lg对en_core_web_lg
EN

Stack Overflow用户

提问于 2017-11-08 15:43:24

回答 1查看 2.6K关注 0票数 8

lg和lg中给出的单词向量有什么区别？键的数量是不同的:110万对685 K。我假设这意味着en_vectors_web_lg通过维护形态信息而具有更广泛的覆盖范围，从而产生了更多不同的标记，因为它们都是在公共爬行语料库上训练的，但是有不同数量的标记。

spacy

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-11-08 17:19:45

en_vectors_web_lg包完全包含原始GloVe模型提供的所有向量。en_core_web_lg模型使用v1.x en_core_web_lg模型中的词汇表，该模型从内存中删除所有在100亿字转储的Reddit注释中发生的少于10次的条目。

理论上，大多数被移除的向量应该是spaCy令牌程序从未产生的东西。然而，早期关于完整GloVe向量的实验确实比目前的NER模型的分数略高--所以我们有可能因为失去额外的向量而忽略了一些东西。我将对此做更多的实验，并可能将lg模型转换为包含未修剪的向量表，特别是现在我们有了md模型，这与当前的lg包相比达成了更好的妥协。

票数 10

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47183876

复制

相似问题

问Spacy2.0 en_vectors_web_lg对en_core_web_lg
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spacy2.0 en_vectors_web_lg对en_core_web_lgEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spacy2.0 en_vectors_web_lg对en_core_web_lg
EN