首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >是否有包含普通医学术语的NLP语料库?

是否有包含普通医学术语的NLP语料库?
EN

Data Science用户
提问于 2021-03-01 12:43:09
回答 1查看 3.5K关注 0票数 6

我正在尝试使用NLTK库从病人的医疗报告中提取表示医疗症状的关键词。例如,我有一份医疗报告如下:

S:一位33岁的女结晶师会出现轻微的眩晕,轻微的头痛,尤其是在后脑勺和早上x2周。pt还报告慢性轻度偶尔头晕。O:身高160 cm,体重53.8kg,温度37.3℃,脉搏76℃,SystolicBP 146,DiastolicBP 93,呼吸15,心脏=心脏底部收缩期杂音2/6,胸部听诊B/L清楚,无罗音或喘息,四肢=无水肿或棍棒,心脏=正常S1,S2,RRR a:高血压: E/M水平2级(确定患者)-完成,并规定氢氯噻嗪- 50 mg po qd,胆固醇有序。

在这里,我想找到所有的关键字或图表,代表医学症状。在上面的文章中,这些关键词是“轻微眩晕”、“轻微头痛”、“头晕”等。

为此,我需要一些代表症状的术语集合,这样我就可以在我的医疗报告中检测到类似的术语。是否有与医学术语相关的NLTK语料库?如果我找到一张表示医疗症状的单词清单,我就可以把我在医疗报告中发现的单词与语料库中的单词进行比较。

谢谢。

EN

回答 1

Data Science用户

发布于 2021-03-02 00:39:42

欢迎来到生物医学领域,这是NLP中为数不多的有太多资源可供选择的领域之一:)

  • 数据资源:
    • 梅德林是一个包含3000万篇摘要的数据库语料库。
    • 每个Medline摘要都带有网格描述符注释,网格是医学概念的结构化层次结构。
    • PubMed中环(PMC)是一个包含大约600万篇完整生物医学论文(不仅仅是摘要)的数据库。
    • UMLS是一个数据库,包含数以百万计的按概念分组的医学术语,其本身按语义类型(如疾病、基因等)分组。
    • PubTator是一种资源,它提供了所有Medline和PMC文档,并结合了网格和其他本体进行了完整的注释。

  • 软件工具:
    • MetaMap是一个受人尊敬的注释器系统,它用UMLS标签对任何医学文本进行注释。
    • cTakes是另一个更专业的临床文本注释系统。
    • SciSpacy是一种专用于生物医学文本的Spacy变体。它还可以用UMLS标签注释医学术语。

我认为这是我所知道的所有主要的.到目前为止。

根据您的描述,在我看来,您可能只需要cTakes或SciSpacy。如果您要开始使用Medline或PMC,请注意这些数据集很大(几百GB)。

票数 4
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/90092

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档