首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如果我有文档的全文和标签,那么如何分类文档中的特定类型的单词?

如果我有文档的全文和标签,那么如何分类文档中的特定类型的单词?
EN

Data Science用户
提问于 2021-01-15 23:03:49
回答 1查看 42关注 0票数 1

我正在做一个项目,其中包括从文本中挑选特定种类的对象。我要讨论的文件是生命科学和生物医学,在这些文件中有一些特定的生物医学“对象”,我想从中挑选出来。文本对象的性质和多样性意味着我不能使用regex或字符串匹配。一定是某种分类。

这些文本对象可以是一个单词,也可以是多个单词,但它们总是顺序一致的。一个例句就像

代码语言:javascript
复制
During the process of protein synthesis, X was used.

我需要挑选X。幸运的是,我有足够的标签文件,也有足够的标签。所以我知道人类可以分辨出这些物体。所以现在的挑战是让机器能够从看不见的文本中挑选出这些类型的对象。我的假设是,这些特定的文本对象都属于一些类似的语法和文本上下文,因此,如果有足够多的标记数据,机器应该能够学习如何选择文本对象。

两个主要问题。

  1. 如何在文档中标注特定的单词,以便某些模型能够理解,给定一个文本序列,位置Y处的对象是一个标记,以及我们应该试图对其进行分类。
  2. 我刚才说的有道理吗?有没有关于我一直在说什么的研究,因为我环顾四周,却找不到多少东西。
EN

回答 1

Data Science用户

回答已采纳

发布于 2021-01-16 11:10:52

您描述的任务与命名实体识别(NER)完全对应。这是一个标准任务,有许多可用的库。NER通常采用序列标记模型(如条件随机场 )进行。序列标签意味着提供数据的顺序如下:

代码语言:javascript
复制
During    <features ...>  O
the                       O
process                   O
of                        O
protein                   O
synthesis                 O
,                         O
X_token1                  B_classX
X_token2                  I_classX
X_token3                  I_classX
was                       O
used                      O
.                         O

这里我使用的是常见的BIO格式(开始,在实体内部,外部),但也有一些变体。通过这种方式对模型进行数据注释的培训,其中可以有额外的特性(通常是POS标记和其他特性)。然后,当提供新的文本(带有特性)时,模型预测每个令牌的BIO标记。

在生物医学数据的特定背景下,已经产生了许多用于提取特定实体的研究和资源,因此您可能也对探索这些特定资源感兴趣。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/88034

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档