首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何将文本数据转换为CoNLL格式?

如何将文本数据转换为CoNLL格式?
EN

Data Science用户
提问于 2021-08-02 10:05:21
回答 1查看 1.8K关注 0票数 1

这是与我在堆栈溢出上发布的问题相同,但我想知道stackexchange是否适合这个问题。

我想把文本数据转换成CoNLL格式。

words.txt

代码语言:javascript
复制
I was born in 1981.
From 12 to 24.

tags.txt

代码语言:javascript
复制
O O O O B-DateTime O
O B-DateTime I-DateTime B-DateTime O

CoNLL(.conll文件)

代码语言:javascript
复制
I    O
was  O
born O
in   O
1981 B-DateTime
.    O

但是,我只找到了CoNLL-U格式库(Conllu)一个类似于CoNLL(Pyconll)的库,而没有找到示例代码,所以我不知道将其应用到文本-CoNLL转换中。

我对如何将数据转换为CoNLL以及如何编写Python3脚本进行了讨论。

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-08-02 10:25:22

我认为这里有点混乱:您显示的示例不是完整的"conll“格式,至少不是最近的任何格式。这只是NER的一种生物格式。

据我所知,conllu可能已经成为标准的"conll“格式至少10年了,所以如果您使用的是一些旧的数据,那么它可能会使用"conll”这个名称来表示不同的东西。或者有人只是使用了" conll“的名称,因为数据与conll有关,即使该格式不是标准的conll格式。另外,您链接的库用于解析conllu格式,而不是生成它。

通常,conllu格式包括每个令牌的几个列:至少令牌、引理、POS和一些依赖树信息(依赖项的头索引)。它特别被通用属地项目所使用。

因此,据我所知,在这种格式中没有特定的conll标准。但这是一个非常简单的转换,可以手动实现:您可以简单地并行遍历单词和标记,并将令牌和BIO标记打印为列。唯一的占有性问题是这些词语是否已经标记化。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/99598

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档