开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >使用spaCy更好的命名-实体识别和相似性

问使用spaCy更好的命名-实体识别和相似性
EN

Stack Overflow用户

提问于 2018-09-24 06:21:55

回答 1查看 1.5K关注 0票数 3

为了一个小的附带项目，我一直在尝试spaCy，并提出了一些问题和关注。

我注意到spaCy的命名实体识别结果(其最大的en_vectors_web_lg模型)似乎不像1那样精确，谷歌的API能够更准确地提取更多实体，这很可能是因为它们的模型更大。那么，如果可能的话，是否有一种方法可以使用不同的模型来改进spaCy的NER结果，或者通过其他一些技术？

其次，Google的API还返回相关实体的维基百科文章链接。对于spaCy来说，这也是可能的吗?还是在spaCy的NER结果之上使用其他一些技术呢？

第三，我注意到spaCy有一个使用GloVe字向量的similarity()方法2。但是作为一个新手，我不知道在一组文档中频繁地执行每个文档之间的相似性比较(比如5000到10000个文本文档，每个文档少于500个字符)生成一桶类似文档的最佳方法是什么？

希望有人有任何建议或建议。

非常感谢！

named-entity-recognition

EN

回答 1

Stack Overflow用户

发布于 2018-09-24 11:14:54

...So有办法提高spaCy的能力吗？

这是有可能的培训斯佩西的模式，以改善它的能力。您可以使用GoldParse对象来训练它。https://spacy.io/usage/training

其次，Google的API还返回相关实体的维基百科文章链接。对于spaCy来说，这也是可能的吗?还是在spaCy的NER结果之上使用其他一些技术呢？

我还没见过有人用spaCy来尝试这个特性。

第三，我注意到spaCy有一个使用GloVe字向量的相似性()方法2.

我认为这是一个聚类问题，仅仅使用spaCy相似性是无法解决的。对于集群，我强烈建议浏览下面的链接。http://brandonrose.org/clustering

票数 1

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52473653

复制

相似问题