首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >执行命名实体识别- NLP

执行命名实体识别- NLP
EN

Stack Overflow用户
提问于 2019-07-01 19:05:53
回答 1查看 177关注 0票数 0

我正在尝试学习如何执行命名实体识别。

我有一套出院摘要,里面有病人的医疗信息。我将非结构化数据转换为结构化数据。现在,我有一个看起来像这样的DataFrame

代码语言:javascript
复制
Text                        |   Target
normal coronary arteries...     R060

Text列包含有关患者诊断的信息,Target列包含在进一步的任务中需要预测的代码。

我还构建了一个字典,如下所示:

代码语言:javascript
复制
Code (Key) | Term (Value)
A00          Cholera

此字典提供有关每个诊断和传入代码的信息。term列将用于识别语料库中的临床实体。

我需要训练一个分类器并预测代码,以便自动化为放电摘要分配代码的过程(我解释这一点是为了了解我正在执行的任务)。

到目前为止,我已经将我的数据转换为结构化数据。我正在尝试理解如何执行命名实体识别来标记医学术语。我想尝试直接匹配和模糊匹配,但我不确定前面的步骤是什么。我应该在之前执行标记化,词干,词汇化吗?或者首先,我是否应该找到医学术语,因为临床命名实体通常是具有嵌套结构的多标记术语,其中包含其他命名实体?另外,您推荐我在Python中使用哪些包或工具?

我是这个领域的新手,所以任何帮助都将不胜感激!谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-01 21:13:19

如果你要求构建一个分类模型,那么你应该进行深度学习。深度学习是一种高效的分类方法。

在处理这类语言处理任务时,我建议您首先对文本进行标记化并进行填充。基本的标记化应该足够了,但你可以进行更多的预处理,比如基本的字符串处理,因为适当的预处理可以将模型精度提高到3%或4%。对于基本的字符串处理,您可以在python中使用regex(内置包,称为re)。

https://docs.python.org/3/library/re.html

我想,你是在做预处理之后的映射。映射对于分类这样的任务应该足够了,但我建议您学习单词嵌入。单词嵌入将改进您的模型。

对于所有这些任务,我建议您使用tensorflow。Tensorflow是著名的机器学习、语言处理、图像处理等工具。您可以从官方tensorflow文档中了解自然语言处理。他们在tensorflow教程部分提供了所有的学习材料。

https://www.tensorflow.org/tutorials/

我想,这会对你有帮助。祝你工作顺利!

谢谢。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56834587

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档