我是hadoop & hive的新手。对于运行在cloudera 5.2.1上的Apache Hive,您能建议一些性能调整步骤吗?
为了提高配置单元查询性能,有哪些调优参数
配置单元版本:-配置单元0.13.1-cdh5.2.1
配置单元查询:-
select distinct a1.chain_number chain_number,a1.chain_description chain_description from staff.organization_hierarchy a1;
配置单元表格创建为外部,选项为“存储为文本格式”,表格属性如下:-
更改配置单元下面的设置后,我们发现性能提高了10秒
设置hive.exec.parallel=true;
对于我正在使用的查询类型,您是否可以建议除上述设置之外的其他设置来提高配置单元查询性能。
发布于 2015-04-02 13:44:50
您可以使用group by替换distinct,因为只有1个reduce作业来执行distinct作业。
尝尝这个
select chain_number, chain_description
from staff.organization_hierarchy
group by chain_number, chain_description如果reduce作业数量仍然很多,small.You可以使用mapred.reduct.tasks configure对其进行具体配置
发布于 2015-08-10 14:32:32
不只是一种方式,还有很多方式来optimize Hive performance 1)启用Tez执行引擎。2)使用ORC文件格式3)使用矢量化4)基于成本的优化5)使用适当的HQL命令等。
https://stackoverflow.com/questions/29396776
复制相似问题