首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Spark Small ORC条纹

Spark Small ORC条纹
EN

Stack Overflow用户
提问于 2018-01-14 22:49:24
回答 1查看 914关注 0票数 1

我们使用Spark来扁平化点击流数据,然后将其以ORC+zlib格式写入S3,我尝试过在Spark中更改许多设置,但最终创建的ORC文件的条带大小仍然非常小(<2MB)

到目前为止我试图减少条带大小的东西,

之前,每个文件的大小为20MB,我现在使用coalesce创建大小为250-300MB的文件,但每个文件仍有200个条带,即每个条带小于2MB

通过将hive.exec.orc.default.stripe.size设置为67108864,尝试使用hivecontext而不是sparkcontext,但spark不支持这些参数。

那么,有没有关于如何增加创建的ORC文件的条带大小的想法?因为小条带的问题是,当我们使用Presto查询这些ORC文件时,当条带大小小于8MB时,Presto将读取整个数据文件,而不是查询中的选定字段。

Presto条纹问题相关线程:https://groups.google.com/forum/#!topic/presto-users/7NcrFvGpPaA

EN

回答 1

Stack Overflow用户

发布于 2018-01-16 12:58:41

我已经在HDP社区平台上发布了同样的问题,并得到了以下回复,

“它与HIVE-13232相关(已在配置单元1.3.0,2.0.1,2.1.0中修复),但所有Apache Spark仍然使用配置单元1.2.1库。

你可以试试HDP 2.6.3+ (2.6.4是最新的版本)吗?HDP Spark 2.2具有固定蜂窝库。“

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48250778

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档