首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >配置单元查询性能调优

配置单元查询性能调优
EN

Stack Overflow用户
提问于 2015-04-02 01:10:07
回答 2查看 1.4K关注 0票数 1

我是hadoop & hive的新手。对于运行在cloudera 5.2.1上的Apache Hive,您能建议一些性能调整步骤吗?

为了提高配置单元查询性能,有哪些调优参数

配置单元版本:-配置单元0.13.1-cdh5.2.1

配置单元查询:-

select distinct a1.chain_number chain_number,a1.chain_description chain_description from staff.organization_hierarchy a1;

配置单元表格创建为外部,选项为“存储为文本格式”,表格属性如下:-

更改配置单元下面的设置后,我们发现性能提高了10秒

设置hive.exec.parallel=true;

对于我正在使用的查询类型,您是否可以建议除上述设置之外的其他设置来提高配置单元查询性能。

EN

回答 2

Stack Overflow用户

发布于 2015-04-02 13:44:50

您可以使用group by替换distinct,因为只有1个reduce作业来执行distinct作业。

尝尝这个

代码语言:javascript
复制
 select chain_number, chain_description 
 from staff.organization_hierarchy
 group by chain_number, chain_description

如果reduce作业数量仍然很多,small.You可以使用mapred.reduct.tasks configure对其进行具体配置

票数 0
EN

Stack Overflow用户

发布于 2015-08-10 14:32:32

不只是一种方式,还有很多方式来optimize Hive performance 1)启用Tez执行引擎。2)使用ORC文件格式3)使用矢量化4)基于成本的优化5)使用适当的HQL命令等。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29396776

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档