文章/答案/技术大牛

发布

社区首页 >问答首页 >Spark Small ORC条纹

问Spark Small ORC条纹
EN

Stack Overflow用户

提问于 2018-01-14 22:49:24

回答 1查看 914关注 0票数 1

我们使用Spark来扁平化点击流数据，然后将其以ORC+zlib格式写入S3，我尝试过在Spark中更改许多设置，但最终创建的ORC文件的条带大小仍然非常小(<2MB)

到目前为止我试图减少条带大小的东西，

之前，每个文件的大小为20MB，我现在使用coalesce创建大小为250-300MB的文件，但每个文件仍有200个条带，即每个条带小于2MB

通过将hive.exec.orc.default.stripe.size设置为67108864，尝试使用hivecontext而不是sparkcontext，但spark不支持这些参数。

那么，有没有关于如何增加创建的ORC文件的条带大小的想法？因为小条带的问题是，当我们使用Presto查询这些ORC文件时，当条带大小小于8MB时，Presto将读取整个数据文件，而不是查询中的选定字段。

Presto条纹问题相关线程：https://groups.google.com/forum/#!topic/presto-users/7NcrFvGpPaA

presto

amazon-athena

hadoop

apache-spark

回答 1

Stack Overflow用户

发布于 2018-01-16 12:58:41

我已经在HDP社区平台上发布了同样的问题，并得到了以下回复，

“它与HIVE-13232相关(已在配置单元1.3.0，2.0.1，2.1.0中修复)，但所有Apache Spark仍然使用配置单元1.2.1库。

你可以试试HDP 2.6.3+ (2.6.4是最新的版本)吗？HDP Spark 2.2具有固定蜂窝库。“

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48250778

复制

相似问题

问Spark Small ORC条纹
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark Small ORC条纹EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark Small ORC条纹
EN