首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >是否有一种方法来识别或检测Hive表中的数据倾斜?

是否有一种方法来识别或检测Hive表中的数据倾斜?
EN

Stack Overflow用户
提问于 2018-11-16 06:48:08
回答 1查看 2.1K关注 0票数 0

我们有很多蜂巢查询需要很多时间。我们正在使用tez和其他良好实践,如CBO,使用orc文件等。

有没有一种像命令一样检查/分析数据倾斜的方法?一个解释计划会有帮助吗?如果有,我应该找哪个参数?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-11-16 07:59:15

解释计划将无助于此,您应该检查数据。如果它是一个联接,那么从连接所涉及的所有表中选择top 100 join键值,如果它是分析函数,则对分区按键执行同样的操作,您将看到它是否是一个斜交。

示例:

代码语言:javascript
复制
select key, count(*) cnt
   from table
  group by key
 having count(*)> 1000 --check also >1 for tables where it should not be duplication (like dimentions)
  order by cnt desc limit 100;

key可以是复杂的连接键(在联接条件下使用的所有列)。

也请看一下这个答案:https://stackoverflow.com/a/51061613/2700344

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53332761

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档