我正在尝试学习如何执行命名实体识别。
我有一套出院摘要,里面有病人的医疗信息。我将非结构化数据转换为结构化数据。现在,我有一个看起来像这样的DataFrame:
Text | Target
normal coronary arteries... R060Text列包含有关患者诊断的信息,Target列包含在进一步的任务中需要预测的代码。
我还构建了一个字典,如下所示:
Code (Key) | Term (Value)
A00 Cholera此字典提供有关每个诊断和传入代码的信息。term列将用于识别语料库中的临床实体。
我需要训练一个分类器并预测代码,以便自动化为放电摘要分配代码的过程(我解释这一点是为了了解我正在执行的任务)。
到目前为止,我已经将我的数据转换为结构化数据。我正在尝试理解如何执行命名实体识别来标记医学术语。我想尝试直接匹配和模糊匹配,但我不确定前面的步骤是什么。我应该在之前执行标记化,词干,词汇化吗?或者首先,我是否应该找到医学术语,因为临床命名实体通常是具有嵌套结构的多标记术语,其中包含其他命名实体?另外,您推荐我在Python中使用哪些包或工具?
我是这个领域的新手,所以任何帮助都将不胜感激!谢谢!
发布于 2019-07-01 21:13:19
如果你要求构建一个分类模型,那么你应该进行深度学习。深度学习是一种高效的分类方法。
在处理这类语言处理任务时,我建议您首先对文本进行标记化并进行填充。基本的标记化应该足够了,但你可以进行更多的预处理,比如基本的字符串处理,因为适当的预处理可以将模型精度提高到3%或4%。对于基本的字符串处理,您可以在python中使用regex(内置包,称为re)。
https://docs.python.org/3/library/re.html
我想,你是在做预处理之后的映射。映射对于分类这样的任务应该足够了,但我建议您学习单词嵌入。单词嵌入将改进您的模型。
对于所有这些任务,我建议您使用tensorflow。Tensorflow是著名的机器学习、语言处理、图像处理等工具。您可以从官方tensorflow文档中了解自然语言处理。他们在tensorflow教程部分提供了所有的学习材料。
https://www.tensorflow.org/tutorials/
我想,这会对你有帮助。祝你工作顺利!
谢谢。
https://stackoverflow.com/questions/56834587
复制相似问题