文章/答案/技术大牛

发布

社区首页 >问答首页 >执行命名实体识别- NLP

问执行命名实体识别- NLP
EN

Stack Overflow用户

提问于 2019-07-01 19:05:53

回答 1查看 177关注 0票数 0

我正在尝试学习如何执行命名实体识别。

我有一套出院摘要，里面有病人的医疗信息。我将非结构化数据转换为结构化数据。现在，我有一个看起来像这样的DataFrame：

Text                        |   Target
normal coronary arteries...     R060

Text列包含有关患者诊断的信息，Target列包含在进一步的任务中需要预测的代码。

我还构建了一个字典，如下所示：

Code (Key) | Term (Value)
A00          Cholera

此字典提供有关每个诊断和传入代码的信息。term列将用于识别语料库中的临床实体。

我需要训练一个分类器并预测代码，以便自动化为放电摘要分配代码的过程(我解释这一点是为了了解我正在执行的任务)。

到目前为止，我已经将我的数据转换为结构化数据。我正在尝试理解如何执行命名实体识别来标记医学术语。我想尝试直接匹配和模糊匹配，但我不确定前面的步骤是什么。我应该在之前执行标记化，词干，词汇化吗？或者首先，我是否应该找到医学术语，因为临床命名实体通常是具有嵌套结构的多标记术语，其中包含其他命名实体？另外，您推荐我在Python中使用哪些包或工具？

我是这个领域的新手，所以任何帮助都将不胜感激！谢谢!

named-entity-recognition

python

nlp

fuzzywuzzy

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-07-01 21:13:19

如果你要求构建一个分类模型，那么你应该进行深度学习。深度学习是一种高效的分类方法。

在处理这类语言处理任务时，我建议您首先对文本进行标记化并进行填充。基本的标记化应该足够了，但你可以进行更多的预处理，比如基本的字符串处理，因为适当的预处理可以将模型精度提高到3%或4%。对于基本的字符串处理，您可以在python中使用regex(内置包，称为re)。

https://docs.python.org/3/library/re.html

我想，你是在做预处理之后的映射。映射对于分类这样的任务应该足够了，但我建议您学习单词嵌入。单词嵌入将改进您的模型。

对于所有这些任务，我建议您使用tensorflow。Tensorflow是著名的机器学习、语言处理、图像处理等工具。您可以从官方tensorflow文档中了解自然语言处理。他们在tensorflow教程部分提供了所有的学习材料。

https://www.tensorflow.org/tutorials/

我想，这会对你有帮助。祝你工作顺利！

谢谢。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56834587

复制

相似问题

问执行命名实体识别- NLP
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问执行命名实体识别- NLPEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问执行命名实体识别- NLP
EN