我正在使用Amazon Comprehend进行实体受伤检测。
假设我有一段文本,如下所示:
约翰做了手术,修复了左膝脱臼和前十字韧带撕裂。
亚马逊理解医疗(ACM)能够将脱臼识别为一种医疗状况。然而,考虑下一段文本:
“约翰因右膝盖骨脱臼而缺阵。”
在这段文本中,ACM不能将脱位识别为一种医学状况。类似地,如果我放入一段文本,如"Left ankle sprain",ACM能够将脚踝扭伤识别为一种医疗状况,但如果我放入“扭伤左脚踝”,则ACM不会将扭伤这个词理解为一种医疗状况。
有没有什么方法可以清理我的文本,改变单词的顺序,以便可以准确地标记这些实体?
发布于 2019-10-24 02:44:07
你要找的东西叫做词汇化。例如,您可以使用NLTK工具包将每个单词简化为它的非词尾变化的基本形式(引理),这将给出“错位”和“扭伤”作为基本形式。这可以提高实体检测的精度。单词的顺序实际上不应该很重要。否则,训练你自己的NER (https://nlpforhackers.io/named-entity-extraction/)。
https://stackoverflow.com/questions/58528509
复制相似问题