首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Spacy2.0 en_vectors_web_lg对en_core_web_lg

Spacy2.0 en_vectors_web_lg对en_core_web_lg
EN

Stack Overflow用户
提问于 2017-11-08 15:43:24
回答 1查看 2.6K关注 0票数 8

lglg中给出的单词向量有什么区别?键的数量是不同的:110万对685 K。我假设这意味着en_vectors_web_lg通过维护形态信息而具有更广泛的覆盖范围,从而产生了更多不同的标记,因为它们都是在公共爬行语料库上训练的,但是有不同数量的标记。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-11-08 17:19:45

en_vectors_web_lg包完全包含原始GloVe模型提供的所有向量。en_core_web_lg模型使用v1.x en_core_web_lg模型中的词汇表,该模型从内存中删除所有在100亿字转储的Reddit注释中发生的少于10次的条目。

理论上,大多数被移除的向量应该是spaCy令牌程序从未产生的东西。然而,早期关于完整GloVe向量的实验确实比目前的NER模型的分数略高--所以我们有可能因为失去额外的向量而忽略了一些东西。我将对此做更多的实验,并可能将lg模型转换为包含未修剪的向量表,特别是现在我们有了md模型,这与当前的lg包相比达成了更好的妥协。

票数 10
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47183876

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档