我们有很多蜂巢查询需要很多时间。我们正在使用tez和其他良好实践,如CBO,使用orc文件等。
有没有一种像命令一样检查/分析数据倾斜的方法?一个解释计划会有帮助吗?如果有,我应该找哪个参数?
发布于 2018-11-16 07:59:15
解释计划将无助于此,您应该检查数据。如果它是一个联接,那么从连接所涉及的所有表中选择top 100 join键值,如果它是分析函数,则对分区按键执行同样的操作,您将看到它是否是一个斜交。
示例:
select key, count(*) cnt
from table
group by key
having count(*)> 1000 --check also >1 for tables where it should not be duplication (like dimentions)
order by cnt desc limit 100;key可以是复杂的连接键(在联接条件下使用的所有列)。
https://stackoverflow.com/questions/53332761
复制相似问题