首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用hive优化hive数据聚合

使用hive优化hive数据聚合
EN

Stack Overflow用户
提问于 2017-05-05 22:20:28
回答 1查看 147关注 0票数 0

我有一个带有followig模式(event_id,country,unit_id,date)的hive表(8,000,000条记录),我需要将这些数据导出到一个文本文件中,满足以下要求:1- event_id聚合(组合)行。2-聚合的行必须根据日期进行排序。

例如,具有相同event_id的行必须组合为列表列表,并根据日期排序。

使用spark完成这项工作的最佳性能明智解决方案是什么?

注意:这应该是一个批处理作业。

EN

回答 1

Stack Overflow用户

发布于 2017-05-05 22:43:24

就性能而言,我认为最好的解决方案是编写一个spark程序(scala或python),将底层文件读入hive表,执行转换,然后将输出作为文件写入。

我发现,只读取spark中的文件比通过spark查询hive并将结果放入数据帧要快得多。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43807359

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档