我使用一个NER模型来提取文本中显示的治疗(冰、热或OTC),但是治疗有多个上下文。
建议Homecare
诊所。
在以上所有句子中,NER模型都提取冰包作为治疗实体,但如何使它学习上下文并进一步识别治疗是家庭建议还是临床治疗。应该根据周围的单词来学习上下文(继续和遵循这两个词)。
对于这个用例,我应该使用什么技术?我不想在NER之上使用基于规则的技术,我已经使用了这些技术,但我希望以一种更复杂的方式这样做。
对于实体识别,我使用了一个经过预先训练的生物医学人员(来自Scispacy libaray),并使用实体规则将我的自定义实体添加到其中。
发布于 2021-07-14 04:50:55
我建议你把这当成分类问题。给出像你的例子一样的句子,训练一个分类器来预测一个标签,比如家庭/诊所/其他。标记示例应该很容易,并且可以使用spaCy textcat模型。
有一件事要小心,你知道数据中每个标签的比例应该是多少吗?如果它真的不平衡,这可能是一个问题,你可能需要改变一下你的方法。
您也可以为位置添加一个NER标签,但我怀疑它将更难标记,而不是与您的数据很好的匹配。
另一种方法,其主要优点是测试速度快,将是识别诸如“在某处”或“在某处”这样的介词短语。使用它,您可能会发现,只是匹配一个短语,如“在家里”标签的很大一部分您的数据集。我知道你说你想用一些更复杂的东西,但是如果简单的东西管用的话,它是值得使用的。
https://stackoverflow.com/questions/68371848
复制相似问题