我有一堆描述疾病的文字文件。在大多数情况下,这些文件很短,而且往往只包含一句话。这里举了一个例子:
原发性肺动脉高压是一种进行性疾病,广泛阻塞最小的肺动脉会导致肺血管阻力增加,进而导致右心室衰竭。
我需要的是一个工具,可以在句子中找到所有的疾病术语(例如,本例中的“肺动脉高压”),并将它们映射到像MeSH这样的受控词汇表中。
提前感谢您的回答!
发布于 2013-05-14 03:08:17
以下是专门为医学文档解析而设计的两个管道:
两者都使用UMLS,这是统一的医学语言系统,因此要求您拥有(免费)许可证。两者都是Java的,并且或多或少地易于设置。
发布于 2012-09-25 14:56:00
请参阅http://www.ebi.ac.uk/webservices/whatizit/info.jsf
Whatizit是一个文本处理系统,允许您对文本执行文本挖掘任务。任务由上述窗口下拉列表中的管道来定义,文本可以粘贴在文本区域中。
你也可以问生物星:http://www.biostars.org/show/questions/
发布于 2013-05-04 20:34:29
有很多工具可以做到这一点。一些流行的:
它们中的大多数都附带了一些预定义的模型,即它们已经接受了一些通用数据集(新闻文章等)的培训。然而,您的文本是相当具体的,所以您可能需要首先组成一个语料库,并重新培训其中一个工具,以调整它与您的数据。
更简单地说,作为第一个测试,您可以尝试一种基于字典的方法:设计一个实体名称列表,并执行一些精确或近似的匹配。例如,这个操作是在灵管教程中完成的。
https://stackoverflow.com/questions/12578790
复制相似问题