首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >顺序顺序在面向列的格式章节中的书Hadoop的权威指南?

顺序顺序在面向列的格式章节中的书Hadoop的权威指南?
EN

Stack Overflow用户
提问于 2018-10-05 17:17:16
回答 1查看 67关注 0票数 1

在Hadoop:权威指南第4版的第137页中,它谈到了面向列的格式文件,并显示了下面的图片。

在RCFile中,为什么数列的顺序是1,4,2,5,3,6,7,10,8,11,9,12而不是1,4,7,10,2,5,8,11,3,6,9,12

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-10-05 19:38:29

首先,RC不是柱状文件,而是记录的柱状文件。RC和ORC都是可分裂的。这意味着您不需要读取所有文件来获取少数行,并且可以由多个容器并行读取。这就是我们需要分裂的原因。

拆分包含分组为的行,它们可以相互独立地读取,同时列也在拆分中分组。类似的数据可以更好地压缩,因此如果将列分组在一起,则可以改进压缩。在您的示例中,一个拆分只包含两行,但它可以包含10000或更多行。

官方documentation对RC文件的评论如下:

  • 作为行存储,RCFile保证同一行中的数据位于同一节点中.
  • 作为列存储,RCFile可以利用按列进行的数据压缩和跳过不必要的列读取.

还可以读到关于ORC的文章。使用ORC中的索引,条纹可以很容易地在最低级别上被过滤。这个特性被称为谓词向下推。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52670525

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档