我是NLP的新手,我发现了一种名为ConLL的格式,它似乎是一个由选项卡分隔的文件,如
ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL 我在波斯语中找到了这种格式的依赖树银行。我想在上面做些实验。我熟悉C#,C#拥有很好的XML文件库。
我只是想知道为什么这样的语料库不是XML格式的!我说的不是复杂的,但他们可以将每一行放在XML的一个节点中。至少,我知道每个元素的标记是什么。
但是,我可以将其转换为XML。
发布于 2015-07-08 07:51:00
一个肯定的原因是,您可以轻松地在电子表格查看器中打开它。
发布于 2015-07-08 07:51:17
ConLL是一种为提高处理效率(速度和内存使用)而优化的格式。
NLP的XML格式通常有一个接一个的注释层;因此,必须将整个文件保存在内存中才能处理它。
ConLL的一个缺点是必须为稀疏注释添加填充(例如,0)。
https://datascience.stackexchange.com/questions/6387
复制相似问题