首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >生物格式(技能、资格、经验)

生物格式(技能、资格、经验)
EN

Data Science用户
提问于 2023-05-21 07:31:01
回答 1查看 39关注 0票数 0

我有数据集(CSV格式)。

我的邮件目标是做命名实体识别和使用算法的今天的SOTA,例如,根据网站nlpprogress.com。

SOTA的一个存储库是:https://github.com/ZihanWangKi/CrossWeigh/tree/master

现在,根据我所看到的命名实体识别,我需要创建一个BIO文件格式。

我现在还没有。

我手中的是一个csv,它将字段划分为各自的标题。

问题是如何使用适当的标记来创建这样的数据集:B技能、i技能、B-EDU、I-EDU、B-EXP、I-EXP。

EN

回答 1

Data Science用户

发布于 2023-05-26 11:12:54

您需要手动注释输入文本的大示例,如下所示:

代码语言:javascript
复制
Irrelevant   O
information, O
Adaptable    B-Skill
to           I-Skill
stuff        I-Skill
,            O
Leadership   B-Skill
skills       I-Skill
...          O

但通常NER是针对非结构化文本的。因此,如果您认为CSV结构是可靠的,那么使用NER是没有意义的,因为您已经知道哪一种文本属于哪一类:“技能”栏中的所有内容都属于技能,“经验”中的所有内容都属于经验,等等。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/121669

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档