给出(错误的)句子:"CK7,CK-20,GATA 3,PSA,都是阴性的.“
当使用_lg模型时,"CK7“被标记为名词。
当使用_md模型时,"CK7“被标记为PROPN(NNP)。这是正确的.
在使用_lg模型时,在以下句子中替换"CK7“:
当使用_md模型并替换上面描述的"CK7“时,所有这些都被标记为PROPN、和预期的。
由于我将要分析的句子中的大部分都是格式很差的,所以我认为_lg模型的“更深的”依赖解析会更好地服务,但却发现了POS标记E 253的上述问题。
请就下列事项提出建议:
非常感谢。
发布于 2019-04-08 09:56:53
因此,这并不是对您的问题的直接回答,但是如果您正在处理生物医学数据,尝试这个包可能是有意义的:剪裁。
它并不将CK-7标记为专有名词,但它可以将许多这类术语作为实体来处理,请参阅支持不同标记集的各种额外的NER模型。它仍在开发中,您可能仍然需要为您的数据添加特殊情况/异常,但我认为您将看到比标准spacy模型更好和更一致的结果。
https://stackoverflow.com/questions/55557300
复制相似问题