文章/答案/技术大牛

发布

社区首页 >问答首页 >生物格式(技能、资格、经验)

问生物格式(技能、资格、经验)
EN

Data Science用户

提问于 2023-05-21 07:31:01

回答 1查看 39关注 0票数 0

我有数据集(CSV格式)。

我的邮件目标是做命名实体识别和使用算法的今天的SOTA，例如，根据网站nlpprogress.com。

SOTA的一个存储库是：https://github.com/ZihanWangKi/CrossWeigh/tree/master

现在，根据我所看到的命名实体识别，我需要创建一个BIO文件格式。

我现在还没有。

我手中的是一个csv，它将字段划分为各自的标题。

问题是如何使用适当的标记来创建这样的数据集:B技能、i技能、B-EDU、I-EDU、B-EXP、I-EXP。

nlp

named-entity-recognition

回答 1

Data Science用户

发布于 2023-05-26 11:12:54

您需要手动注释输入文本的大示例，如下所示：

Irrelevant   O
information, O
Adaptable    B-Skill
to           I-Skill
stuff        I-Skill
,            O
Leadership   B-Skill
skills       I-Skill
...          O

但通常NER是针对非结构化文本的。因此，如果您认为CSV结构是可靠的，那么使用NER是没有意义的，因为您已经知道哪一种文本属于哪一类：“技能”栏中的所有内容都属于技能，“经验”中的所有内容都属于经验，等等。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/121669

复制

相似问题

问生物格式(技能、资格、经验)
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问生物格式(技能、资格、经验)EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问生物格式(技能、资格、经验)
EN