首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >ConLL不采用XML格式的原因

ConLL不采用XML格式的原因
EN

Data Science用户
提问于 2015-07-08 07:35:31
回答 2查看 513关注 0票数 2

我是NLP的新手,我发现了一种名为ConLL的格式,它似乎是一个由选项卡分隔的文件,如

代码语言:javascript
复制
ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL 

我在波斯语中找到了这种格式的依赖树银行。我想在上面做些实验。我熟悉C#,C#拥有很好的XML文件库。

我只是想知道为什么这样的语料库不是XML格式的!我说的不是复杂的,但他们可以将每一行放在XML的一个节点中。至少,我知道每个元素的标记是什么。

但是,我可以将其转换为XML。

EN

回答 2

Data Science用户

发布于 2015-07-08 07:51:00

一个肯定的原因是,您可以轻松地在电子表格查看器中打开它。

票数 1
EN

Data Science用户

发布于 2015-07-08 07:51:17

ConLL是一种为提高处理效率(速度和内存使用)而优化的格式。

NLP的XML格式通常有一个接一个的注释层;因此,必须将整个文件保存在内存中才能处理它。

ConLL的一个缺点是必须为稀疏注释添加填充(例如,0)。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/6387

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档