首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Hive/Impala中的多维分析

Hive/Impala中的多维分析
EN

Stack Overflow用户
提问于 2014-08-01 06:10:09
回答 1查看 1.5K关注 0票数 0

我有一个非规范化的表,比如Sales,看起来是这样的:

SalesKey、SalesOfParts、SalesOfEquipments、CostOfSales作为一些数字度量:行业、国家、州、销售区域、设备id、客户id、销售年份、销售月份以及更多类似的维度。(共12个维度)

我需要支持对销售的聚合查询,如在一年,一个月的销售总数…他们的总成本等。此外,这些合计需要过滤,即类似于2013,04年的总销售额属于XYZ客户的制造行业。

我在hive/impala中有这些维度表和事实。

我不认为我可以在所有的维度上制作一个立方体。我读了一篇论文,了解如何在多个维度上进行联机分析处理:http://www.vldb.org/conf/2004/RS14P1.PDF

这基本上建议在小片段上物化多维数据集,并在查询跨越多个多维数据集时进行某种运行时计算。

我不确定如何在Hive/Impala中实现此模型。任何点子/建议都会很棒。

编辑:我在Sales表中有大约1000万行,维度不能与100相比,但大约是12行(可能高达15行),但每个都有很好的基数。

EN

回答 1

Stack Overflow用户

发布于 2014-08-02 13:09:43

我会使用第三方软件构建立方体。例如,icCube是一个内存中的OLAP服务器,它可以毫无问题地处理超过12个维度的10mio行。那么响应时间在所有维度上都将是亚秒级。从Hive 10mio移出行似乎不是问题(您可以使用JDBC驱动程序来实现此目的)。icCube是专门为处理高度稀疏性而设计的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25069771

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档