arxiv.org/abs/1909.10390 推荐原因 本文的主要内容作者参加2018年的一个信息抽取比赛时所用的思路、方法和总结,主要的方法是使用预训练的语言模型以及额外的语义特征 作者使用了CLAMP, cTAKES
Apache cTAKES – Apache临床文本分析及知识提取系统(cTAKES)是从电子病历,临床文本中进行信息抽取的一个开源系统。
基于规则、语言分析和统计模型的概念提取工具(如cTAKES和MetaMap)的准确率和召回率通常在0.38至0.66之间。神经网络正被用于概念识别,并取得越来越大的成功。
例如,cTAKES NLP工具与基于规则的解析结合使用,从出院摘要中提取患者和癫痫特征,其 F 分数为 88.53%。 同样,Yale cTAKES 扩展 NLP 工具被用于与分类器结合,以将癫痫患者与患有心因性非癫痫事件的人区分开来,其 F分数为 96%。