有谁能解释一下使用pigScript使用HCatalog时使用哪种蜂巢文件是有效的。
我想了解哪些单元文件格式是有效的,因为目前我们有一个基于日期的分区单元表,并且底层文件是一个顺序文件。读取80天的数据会产生大约70000个映射器,这是非常巨大的。尝试将地图拆分大小更改为2GB,但并没有减少多少。
因此,代替顺序文件寻找其他选项,这将减少映射程序的数量。每个数据的数据大小为9GB。
有什么建议或启示吗?
谢谢。
发布于 2017-10-30 07:07:41
据我所知,ORC是最适合蜂箱的文件格式,它具有压缩比高、处理数据量大、读取速度快等优点。ORC作为列存储和压缩,从而导致较小的磁盘读取。柱状格式也是蜂巢中向量化优化的理想格式。
https://stackoverflow.com/questions/46671675
复制相似问题