我有数据集(CSV格式)。

我的邮件目标是做命名实体识别和使用算法的今天的SOTA,例如,根据网站nlpprogress.com。
SOTA的一个存储库是:https://github.com/ZihanWangKi/CrossWeigh/tree/master
现在,根据我所看到的命名实体识别,我需要创建一个BIO文件格式。
我现在还没有。
我手中的是一个csv,它将字段划分为各自的标题。
问题是如何使用适当的标记来创建这样的数据集:B技能、i技能、B-EDU、I-EDU、B-EXP、I-EXP。
发布于 2023-05-26 11:12:54
您需要手动注释输入文本的大示例,如下所示:
Irrelevant O
information, O
Adaptable B-Skill
to I-Skill
stuff I-Skill
, O
Leadership B-Skill
skills I-Skill
... O但通常NER是针对非结构化文本的。因此,如果您认为CSV结构是可靠的,那么使用NER是没有意义的,因为您已经知道哪一种文本属于哪一类:“技能”栏中的所有内容都属于技能,“经验”中的所有内容都属于经验,等等。
https://datascience.stackexchange.com/questions/121669
复制相似问题