首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Apache Hive最佳Hive文件格式

Apache Hive最佳Hive文件格式
EN

Stack Overflow用户
提问于 2017-10-10 16:34:44
回答 1查看 84关注 0票数 1

有谁能解释一下使用pigScript使用HCatalog时使用哪种蜂巢文件是有效的。

我想了解哪些单元文件格式是有效的,因为目前我们有一个基于日期的分区单元表,并且底层文件是一个顺序文件。读取80天的数据会产生大约70000个映射器,这是非常巨大的。尝试将地图拆分大小更改为2GB,但并没有减少多少。

因此,代替顺序文件寻找其他选项,这将减少映射程序的数量。每个数据的数据大小为9GB。

有什么建议或启示吗?

谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-10-30 07:07:41

据我所知,ORC是最适合蜂箱的文件格式,它具有压缩比高、处理数据量大、读取速度快等优点。ORC作为列存储和压缩,从而导致较小的磁盘读取。柱状格式也是蜂巢中向量化优化的理想格式。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46671675

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档