我们使用Spark来扁平化点击流数据,然后将其以ORC+zlib格式写入S3,我尝试过在Spark中更改许多设置,但最终创建的ORC文件的条带大小仍然非常小(<2MB)
到目前为止我试图减少条带大小的东西,
之前,每个文件的大小为20MB,我现在使用coalesce创建大小为250-300MB的文件,但每个文件仍有200个条带,即每个条带小于2MB
通过将hive.exec.orc.default.stripe.size设置为67108864,尝试使用hivecontext而不是sparkcontext,但spark不支持这些参数。
那么,有没有关于如何增加创建的ORC文件的条带大小的想法?因为小条带的问题是,当我们使用Presto查询这些ORC文件时,当条带大小小于8MB时,Presto将读取整个数据文件,而不是查询中的选定字段。
Presto条纹问题相关线程:https://groups.google.com/forum/#!topic/presto-users/7NcrFvGpPaA
发布于 2018-01-16 12:58:41
我已经在HDP社区平台上发布了同样的问题,并得到了以下回复,
“它与HIVE-13232相关(已在配置单元1.3.0,2.0.1,2.1.0中修复),但所有Apache Spark仍然使用配置单元1.2.1库。
你可以试试HDP 2.6.3+ (2.6.4是最新的版本)吗?HDP Spark 2.2具有固定蜂窝库。“
https://stackoverflow.com/questions/48250778
复制相似问题