在Hadoop:权威指南第4版的第137页中,它谈到了面向列的格式文件,并显示了下面的图片。

在RCFile中,为什么数列的顺序是1,4,2,5,3,6,7,10,8,11,9,12而不是1,4,7,10,2,5,8,11,3,6,9,12
发布于 2018-10-05 19:38:29
首先,RC不是柱状文件,而是记录的柱状文件。RC和ORC都是可分裂的。这意味着您不需要读取所有文件来获取少数行,并且可以由多个容器并行读取。这就是我们需要分裂的原因。
拆分包含分组为的行,它们可以相互独立地读取,同时列也在拆分中分组。类似的数据可以更好地压缩,因此如果将列分组在一起,则可以改进压缩。在您的示例中,一个拆分只包含两行,但它可以包含10000或更多行。
官方documentation对RC文件的评论如下:
还可以读到关于ORC的文章。使用ORC中的索引,条纹可以很容易地在最低级别上被过滤。这个特性被称为谓词向下推。
https://stackoverflow.com/questions/52670525
复制相似问题