我正试图通过带有6个节点的EMR集群(每个节点上有8个核心和56GB内存)来执行火花作业。Spark作业对Hive表上的分区进行增量加载,最后执行刷新表以更新元数据。
刷新命令需要3到6个小时才能完成,这太长了。
蜂巢中数据的性质:
注-它是一个按日期划分的分区,不能更改。
使用的火花配置:
尝试过的事物:
MSCK repair table tablename所有这些都对减少Hive上刷新分区的时间没有任何影响。
一些假设:
任何帮助都将不胜感激。
发布于 2020-12-09 12:44:01
https://stackoverflow.com/questions/64507087
复制相似问题