首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >针对健康问题的定制POS标签

针对健康问题的定制POS标签
EN

Data Science用户
提问于 2021-05-12 22:23:53
回答 1查看 73关注 0票数 0

我是NLP的新手,我有一堆原始数据,在所有的医学问题上都没有标注,我需要从这些问题中提取出哪些健康问题。

我在想,我需要为NER创建两个定制POS标记:

-the在身体上的位置

-the问题本身

因此,如果有人问“我的头疼”,它会明白位置是头部,问题是它疼,但如果有人问‘我的皮肤在我的腹部周围红色’,它就会明白位置是腹部,问题是皮肤是红色的。

在提取这些数据之后,我需要根据用户要求的内容推荐医学文章。

我有一些问题:

1.我是否走在正确的道路上?

2.你将如何实施?

3.对于位置和健康问题,我是否需要一个自定义的pos标签,还是可以更容易地完成?你怎么提取这些信息的?

4.我想我必须手动标记问题,对吗?

5.你将采用什么框架?

6.要建立推荐系统,我需要从医学文章中提取同样的信息?

7.您将如何创建推荐系统?

正如我说的,我对NLP还不熟悉,我还没有决定框架,但问题不是英语,但是我在github上发现了一个WordNet克隆和一个命名的实体语料库,所以在推荐框架时请记住。

EN

回答 1

Data Science用户

发布于 2021-05-13 10:09:52

几点意见:

  • 术语"POS“(词性的一部分)具有”语法范畴“的特殊含义,所以这里你的意思并不是这样,你应该说”自定义实体标签/类别/标签“。
  • 您的计划是有意义的,但是请注意,您正在解决一个非常困难的问题,所以即使有一个非常好的数据集和方法,它也不会完美地工作(可能还远没有完成)。
  • 您可能需要大量带注释的数据才能工作,因为有许多不同的方法来表达医疗问题,因此模型需要许多示例来提取相关的模式。
  • 当有语言的术语资源时,解决这类问题的标准方法有点不同:医学术语可以通过模式匹配直接注释。如果您有这样的资源,并且它们已经足够完整,这就省去了手动注释和训练自定义模型的需要。
  • 在此基础上创建推荐系统是第二个问题,我认为您需要仔细考虑目标:
    • 如果它被非专家使用,推荐研究文章是没有意义的。
    • 绝大多数的研究文献都是用英语发表的,所以这里还有一个额外的问题要解决。
    • 如果您正在考虑整个医学文献,您可能会有一个复杂的问题,因为它是巨大的(PubMed包含大约3000万个摘要,而这没有考虑到PMC全文)
    • 提出建议的依据是什么?它是否仅基于查询中的术语与文档的匹配?
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/94375

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档