我正在为医学文本开发一个基于本体的注释工具,我在寻找合适的数据集时遇到了一些麻烦。
我使用的是疾病本体,因此我需要一个专注于疾病及其症状/治疗的医疗数据集。
数据集最好是自然语言文本(文章、研究等),但基于字典和基于列表的数据集也可能有所帮助。
谢谢你的帮助!
发布于 2012-07-10 03:28:16
你的意思是你正在寻找一个生物医学文本语料库来注释吗?即。确定关键术语。你可以尝试发布摘要-它们在Linked Open Data cloud上,你可以尝试维基百科上的消费者级别的东西,或者甚至国家卫生研究院网站目录的开放获取期刊将有大量的开放学术文章注释。
如果你还没有--看看UMLS (以及它的辅助项目,如metamap) --它对任何一种生物医学自然语言处理来说都是无价的。如果你感兴趣,我想我有一份UMLS和疾病本体之间的映射文件。(RDF UMLS,http://linkedlifedata.com)
发布于 2018-11-19 21:05:36
我有偏见(因为我是联合创始人),你仍然可以在tagtog.net上找到一堆biomedical corpora。例如,IDP4+语料库注释了提到的基因突变及其影响(也有一些疾病),V300语料库注释了致病病毒。
https://stackoverflow.com/questions/10617698
复制相似问题