我正在做一个项目,其中包括从文本中挑选特定种类的对象。我要讨论的文件是生命科学和生物医学,在这些文件中有一些特定的生物医学“对象”,我想从中挑选出来。文本对象的性质和多样性意味着我不能使用regex或字符串匹配。一定是某种分类。
这些文本对象可以是一个单词,也可以是多个单词,但它们总是顺序一致的。一个例句就像
During the process of protein synthesis, X was used.我需要挑选X。幸运的是,我有足够的标签文件,也有足够的标签。所以我知道人类可以分辨出这些物体。所以现在的挑战是让机器能够从看不见的文本中挑选出这些类型的对象。我的假设是,这些特定的文本对象都属于一些类似的语法和文本上下文,因此,如果有足够多的标记数据,机器应该能够学习如何选择文本对象。
两个主要问题。
发布于 2021-01-16 11:10:52
您描述的任务与命名实体识别(NER)完全对应。这是一个标准任务,有许多可用的库。NER通常采用序列标记模型(如条件随机场 )进行。序列标签意味着提供数据的顺序如下:
During <features ...> O
the O
process O
of O
protein O
synthesis O
, O
X_token1 B_classX
X_token2 I_classX
X_token3 I_classX
was O
used O
. O这里我使用的是常见的BIO格式(开始,在实体内部,外部),但也有一些变体。通过这种方式对模型进行数据注释的培训,其中可以有额外的特性(通常是POS标记和其他特性)。然后,当提供新的文本(带有特性)时,模型预测每个令牌的BIO标记。
在生物医学数据的特定背景下,已经产生了许多用于提取特定实体的研究和资源,因此您可能也对探索这些特定资源感兴趣。
https://datascience.stackexchange.com/questions/88034
复制相似问题