首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Spacy en_core_web_lg模型标记POS不一致

使用Spacy en_core_web_lg模型标记POS不一致
EN

Stack Overflow用户
提问于 2019-04-07 09:06:10
回答 1查看 380关注 0票数 2
  • 使用en_core_web_lg模型对PROPN 不以预期的方式工作进行POS标记。
  • 使用_md模型可以更好地预测POS标记的工作。

给出(错误的)句子:"CK7,CK-20,GATA 3,PSA,都是阴性的.“

当使用_lg模型时,"CK7“被标记为名词。

当使用_md模型时,"CK7“被标记为PROPN(NNP)。这是正确的.

在使用_lg模型时,在以下句子中替换"CK7“:

  • 标记为PROPN的"CK1“
  • 标记为PROPN的"CK2“
  • "CK3“,"CK4”标记为PROPN
  • "CK5“标记为
  • 标记为PROPN的"CK6“
  • "CK7“标记为名词
  • 标记为PROPN的"CK8“
  • "CK9“标记为ADP
  • "CK22","CK222",标记为PROPN

当使用_md模型并替换上面描述的"CK7“时,所有这些都被标记为PROPN、和预期的

由于我将要分析的句子中的大部分都是格式很差的,所以我认为_lg模型的“更深的”依赖解析会更好地服务,但却发现了POS标记E 253的上述问题。

请就下列事项提出建议:

  1. 在使用en_core_web_lg模型时,如何处理违反直觉的POS标记?
  2. 哪一种模型最适合依赖分析格式错误的句子?

非常感谢。

EN

回答 1

Stack Overflow用户

发布于 2019-04-08 09:56:53

因此,这并不是对您的问题的直接回答,但是如果您正在处理生物医学数据,尝试这个包可能是有意义的:剪裁

它并不将CK-7标记为专有名词,但它可以将许多这类术语作为实体来处理,请参阅支持不同标记集的各种额外的NER模型。它仍在开发中,您可能仍然需要为您的数据添加特殊情况/异常,但我认为您将看到比标准spacy模型更好和更一致的结果。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55557300

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档