首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >疾病命名实体识别

疾病命名实体识别
EN

Stack Overflow用户
提问于 2012-09-25 08:15:05
回答 5查看 3.1K关注 0票数 6

我有一堆描述疾病的文字文件。在大多数情况下,这些文件很短,而且往往只包含一句话。这里举了一个例子:

原发性肺动脉高压是一种进行性疾病,广泛阻塞最小的肺动脉会导致肺血管阻力增加,进而导致右心室衰竭。

我需要的是一个工具,可以在句子中找到所有的疾病术语(例如,本例中的“肺动脉高压”),并将它们映射到像MeSH这样的受控词汇表中。

提前感谢您的回答!

EN

回答 5

Stack Overflow用户

发布于 2013-05-14 03:08:17

以下是专门为医学文档解析而设计的两个管道:

  • Apache cTAKES
  • NLM's MetaMap

两者都使用UMLS,这是统一的医学语言系统,因此要求您拥有(免费)许可证。两者都是Java的,并且或多或少地易于设置。

票数 6
EN

Stack Overflow用户

发布于 2012-09-25 14:56:00

请参阅http://www.ebi.ac.uk/webservices/whatizit/info.jsf

Whatizit是一个文本处理系统,允许您对文本执行文本挖掘任务。任务由上述窗口下拉列表中的管道来定义,文本可以粘贴在文本区域中。

你也可以问生物星:http://www.biostars.org/show/questions/

票数 2
EN

Stack Overflow用户

发布于 2013-05-04 20:34:29

有很多工具可以做到这一点。一些流行的:

  • NLTK (蟒蛇)
  • LingPipe (java)
  • 斯坦福纳 (java)
  • OpenCalais (web服务)
  • 伊利诺伊州 (java)

它们中的大多数都附带了一些预定义的模型,即它们已经接受了一些通用数据集(新闻文章等)的培训。然而,您的文本是相当具体的,所以您可能需要首先组成一个语料库,并重新培训其中一个工具,以调整它与您的数据。

更简单地说,作为第一个测试,您可以尝试一种基于字典的方法:设计一个实体名称列表,并执行一些精确或近似的匹配。例如,这个操作是在灵管教程中完成的。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/12578790

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档