首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Impala 1.2.4上的计算数据问题

Impala 1.2.4上的计算数据问题
EN

Stack Overflow用户
提问于 2015-02-07 06:33:40
回答 1查看 574关注 0票数 0

我们在一个特定的表上面临与Impala计算统计数据有关的问题。问题的详细情况列于下:

问题

有时,Impala的compute语句需要花费太多的时间来完成,或者只是在特定的表上失败。

表详细信息

尺寸: 45 GB带快速压缩的Parquet

记录编号:41亿

分区:在两列上分区。

观测成就了

  • 每次在这个特定的表上运行计算统计数据时,我们都会观察到与黑斑羚不同的行为。有时它会在8-10分钟内完成,而在其他时候,它会被卡住并持续运行2小时,然后抛出一个异常。
  • 当计算统计数据在Impala中成功工作时,针对stats集合的后端impala查询包含表中每一列的NDV。但是,在所有其他情况下,后端查询只计算分区列的计数(*)。(欲了解更多细节,请参阅随附的截图)
  • 深入研究impalad错误,我看到一些节点同时与有问题。但是,除了这些节点之外,其他节点也可以正常工作。./i-2f58f021/apps/impalad.ip-xxx-xxx-x-xxx.us-west-2.compute.internal.hadoop.log.INFO.20150128-053250.3948.gz:I0128 06:11:26.943601 7420 status.cc:44]无法打开ip-xxx-xxx-x-xxx.us-west-2.compute.internal:22000(connect()的传输失败:连接超时)

解决方案尝试了

设置NUM_SCANNER_THREAD=2,然后运行计算统计数据查询。发布我们重置NUM_SCANNER_THREAD的消息。这一点也没有帮助。

集群大小

AWS上的1 r3.2xLargeNameNode= 39 r3.2xLargeDataNode

问题

  1. 黑斑羚计算统计逻辑背后的背景是什么?
  2. 是否有更多可用于优化计算语句的会话级别属性?
  3. 通过端口22000在节点之间连接超时Impalad通信是否是计算统计失败的一个原因?

任何帮助都将不胜感激。

EN

回答 1

Stack Overflow用户

发布于 2016-01-27 04:35:14

您可以使用impala web ui或impala日志查看在激发计算状态时触发了哪些查询。

是的,您可以在imapla配置中更改默认超时。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28379345

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档