文章/答案/技术大牛

发布

社区首页 >问答首页 >使用hive优化hive数据聚合

问使用hive优化hive数据聚合
EN

Stack Overflow用户

提问于 2017-05-05 22:20:28

回答 1查看 147关注 0票数 0

我有一个带有followig模式(event_id，country，unit_id，date)的hive表(8,000,000条记录)，我需要将这些数据导出到一个文本文件中，满足以下要求:1- event_id聚合(组合)行。2-聚合的行必须根据日期进行排序。

例如，具有相同event_id的行必须组合为列表列表，并根据日期排序。

使用spark完成这项工作的最佳性能明智解决方案是什么？

注意:这应该是一个批处理作业。

apache-spark

optimization

hive

distributed-computing

bigdata

回答 1

Stack Overflow用户

发布于 2017-05-05 22:43:24

就性能而言，我认为最好的解决方案是编写一个spark程序(scala或python)，将底层文件读入hive表，执行转换，然后将输出作为文件写入。

我发现，只读取spark中的文件比通过spark查询hive并将结果放入数据帧要快得多。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43807359

复制

相似问题

问使用hive优化hive数据聚合
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用hive优化hive数据聚合EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用hive优化hive数据聚合
EN