首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用spaCy更好的命名-实体识别和相似性

使用spaCy更好的命名-实体识别和相似性
EN

Stack Overflow用户
提问于 2018-09-24 06:21:55
回答 1查看 1.5K关注 0票数 3

为了一个小的附带项目,我一直在尝试spaCy,并提出了一些问题和关注。

我注意到spaCy的命名实体识别结果(其最大的en_vectors_web_lg模型)似乎不像1那样精确,谷歌的API能够更准确地提取更多实体,这很可能是因为它们的模型更大。那么,如果可能的话,是否有一种方法可以使用不同的模型来改进spaCy的NER结果,或者通过其他一些技术?

其次,Google的API还返回相关实体的维基百科文章链接。对于spaCy来说,这也是可能的吗?还是在spaCy的NER结果之上使用其他一些技术呢?

第三,我注意到spaCy有一个使用GloVe字向量的similarity()方法2。但是作为一个新手,我不知道在一组文档中频繁地执行每个文档之间的相似性比较(比如5000到10000个文本文档,每个文档少于500个字符)生成一桶类似文档的最佳方法是什么?

希望有人有任何建议或建议。

非常感谢!

1

2

EN

回答 1

Stack Overflow用户

发布于 2018-09-24 11:14:54

...So有办法提高spaCy的能力吗?

这是有可能的培训斯佩西的模式,以改善它的能力。您可以使用GoldParse对象来训练它。https://spacy.io/usage/training

其次,Google的API还返回相关实体的维基百科文章链接。对于spaCy来说,这也是可能的吗?还是在spaCy的NER结果之上使用其他一些技术呢?

我还没见过有人用spaCy来尝试这个特性。

第三,我注意到spaCy有一个使用GloVe字向量的相似性()方法2.

我认为这是一个聚类问题,仅仅使用spaCy相似性是无法解决的。对于集群,我强烈建议浏览下面的链接。http://brandonrose.org/clustering

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52473653

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档