我有一个带有followig模式(event_id,country,unit_id,date)的hive表(8,000,000条记录),我需要将这些数据导出到一个文本文件中,满足以下要求:1- event_id聚合(组合)行。2-聚合的行必须根据日期进行排序。
例如,具有相同event_id的行必须组合为列表列表,并根据日期排序。
使用spark完成这项工作的最佳性能明智解决方案是什么?
注意:这应该是一个批处理作业。
发布于 2017-05-05 22:43:24
就性能而言,我认为最好的解决方案是编写一个spark程序(scala或python),将底层文件读入hive表,执行转换,然后将输出作为文件写入。
我发现,只读取spark中的文件比通过spark查询hive并将结果放入数据帧要快得多。
https://stackoverflow.com/questions/43807359
复制相似问题