目前以BERT为基础的临床NER预测临床实体(问题、测试、治疗)
我想训练不同的临床数据集,以获得实体(疾病,医学,问题)。
如何实现这一目标?
发布于 2022-01-24 22:05:43
模型
在Huggingface中有几种模型是针对医学专题性文章进行训练的,它们肯定会比正常的bert-base-uncased表现得更好。BioELECTRA是其中之一,它成功地在几个基准测试中超过了现有的生物医学NLP模型。
这些模型有3种不同的版本,取决于它们的培训前数据集。但我认为这两个将是最好的开始。
生物电子学.碱基鉴别器.公开:pubmed预科预科
生物电子-碱基鉴别器-公开-pmc:pubmed和pmc预科
NER数据集:
现在转到NER数据集,有几个数据集您可能喜欢,或者您可能想要创建一个复合数据集。其中一些是- BC5-disease,NCBI-disease,BC5CDR-disease from BLUE benchmark
如果您需要任何帮助来创建模型或设置finetuning设置,请告诉我。另外,请使用适当的度量来评估它们,并在完成后共享度量仪表板。
https://stackoverflow.com/questions/70833839
复制相似问题