文章/答案/技术大牛

发布

社区首页 >问答首页 >使用Spacy en_core_web_lg模型标记POS不一致

问使用Spacy en_core_web_lg模型标记POS不一致
EN

Stack Overflow用户

提问于 2019-04-07 09:06:10

回答 1查看 380关注 0票数 2

使用en_core_web_lg模型对PROPN 不以预期的方式工作进行POS标记。
使用_md模型可以更好地预测POS标记的工作。

给出(错误的)句子："CK7，CK-20，GATA 3，PSA，都是阴性的.“

当使用_lg模型时，"CK7“被标记为名词。

当使用_md模型时，"CK7“被标记为PROPN(NNP)。这是正确的.

在使用_lg模型时，在以下句子中替换"CK7“：

标记为PROPN的"CK1“
标记为PROPN的"CK2“
"CK3“，"CK4”标记为PROPN
"CK5“标记为；
标记为PROPN的"CK6“
"CK7“标记为名词
标记为PROPN的"CK8“
"CK9“标记为ADP
"CK22"，"CK222"，标记为PROPN

当使用_md模型并替换上面描述的"CK7“时，所有这些都被标记为PROPN、和预期的。

由于我将要分析的句子中的大部分都是格式很差的，所以我认为_lg模型的“更深的”依赖解析会更好地服务，但却发现了POS标记E 253的上述问题。

请就下列事项提出建议：

在使用en_core_web_lg模型时，如何处理违反直觉的POS标记？
哪一种模型最适合依赖分析格式错误的句子？

非常感谢。

nlp

spacy

pos-tagger

dependency-parsing

回答 1

Stack Overflow用户

发布于 2019-04-08 09:56:53

因此，这并不是对您的问题的直接回答，但是如果您正在处理生物医学数据，尝试这个包可能是有意义的：剪裁。

它并不将CK-7标记为专有名词，但它可以将许多这类术语作为实体来处理，请参阅支持不同标记集的各种额外的NER模型。它仍在开发中，您可能仍然需要为您的数据添加特殊情况/异常，但我认为您将看到比标准spacy模型更好和更一致的结果。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55557300

复制

相似问题

问使用Spacy en_core_web_lg模型标记POS不一致
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Spacy en_core_web_lg模型标记POS不一致EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Spacy en_core_web_lg模型标记POS不一致
EN