这是与我在堆栈溢出上发布的问题相同,但我想知道stackexchange是否适合这个问题。
我想把文本数据转换成CoNLL格式。
words.txt
I was born in 1981.
From 12 to 24.tags.txt
O O O O B-DateTime O
O B-DateTime I-DateTime B-DateTime OCoNLL(.conll文件)
I O
was O
born O
in O
1981 B-DateTime
. O但是,我只找到了CoNLL-U格式库(Conllu)和一个类似于CoNLL(Pyconll)的库,而没有找到示例代码,所以我不知道将其应用到文本-CoNLL转换中。
我对如何将数据转换为CoNLL以及如何编写Python3脚本进行了讨论。
发布于 2021-08-02 10:25:22
我认为这里有点混乱:您显示的示例不是完整的"conll“格式,至少不是最近的任何格式。这只是NER的一种生物格式。
据我所知,conllu可能已经成为标准的"conll“格式至少10年了,所以如果您使用的是一些旧的数据,那么它可能会使用"conll”这个名称来表示不同的东西。或者有人只是使用了" conll“的名称,因为数据与conll有关,即使该格式不是标准的conll格式。另外,您链接的库用于解析conllu格式,而不是生成它。
通常,conllu格式包括每个令牌的几个列:至少令牌、引理、POS和一些依赖树信息(依赖项的头索引)。它特别被通用属地项目所使用。
因此,据我所知,在这种格式中没有特定的conll标准。但这是一个非常简单的转换,可以手动实现:您可以简单地并行遍历单词和标记,并将令牌和BIO标记打印为列。唯一的占有性问题是这些词语是否已经标记化。
https://datascience.stackexchange.com/questions/99598
复制相似问题