为了一个小的附带项目,我一直在尝试spaCy,并提出了一些问题和关注。
我注意到spaCy的命名实体识别结果(其最大的en_vectors_web_lg模型)似乎不像1那样精确,谷歌的API能够更准确地提取更多实体,这很可能是因为它们的模型更大。那么,如果可能的话,是否有一种方法可以使用不同的模型来改进spaCy的NER结果,或者通过其他一些技术?
其次,Google的API还返回相关实体的维基百科文章链接。对于spaCy来说,这也是可能的吗?还是在spaCy的NER结果之上使用其他一些技术呢?
第三,我注意到spaCy有一个使用GloVe字向量的similarity()方法2。但是作为一个新手,我不知道在一组文档中频繁地执行每个文档之间的相似性比较(比如5000到10000个文本文档,每个文档少于500个字符)生成一桶类似文档的最佳方法是什么?
希望有人有任何建议或建议。
非常感谢!
发布于 2018-09-24 11:14:54
...So有办法提高spaCy的能力吗?
这是有可能的培训斯佩西的模式,以改善它的能力。您可以使用GoldParse对象来训练它。https://spacy.io/usage/training
其次,Google的API还返回相关实体的维基百科文章链接。对于spaCy来说,这也是可能的吗?还是在spaCy的NER结果之上使用其他一些技术呢?
我还没见过有人用spaCy来尝试这个特性。
第三,我注意到spaCy有一个使用GloVe字向量的相似性()方法2.
我认为这是一个聚类问题,仅仅使用spaCy相似性是无法解决的。对于集群,我强烈建议浏览下面的链接。http://brandonrose.org/clustering
https://stackoverflow.com/questions/52473653
复制相似问题