出于效率的原因,我们需要处理一个大的数据集。数据源驻留在Hive中,但具有不同的分区条件。换句话说,我们需要从蜂巢检索数据到火花,并在星火中重新分区。
但是在Spark中有一个问题,当数据被持久化时,它会导致重新排序/重新分配分区(无论是对parquet还是ORC)。因此,我们在星火中的新分区丢失了。
作为一种选择,我们正在考虑在一个新的Hive表中构建新的分区。问题是:是否可以从Hive分区映射Spark分区(用于阅读)?
发布于 2018-07-30 20:58:57
分区发现->可能是您要寻找的内容:
“将路径/ to /table传递给SparkSession.read.parquet或SparkSession.read.load,Spark将自动从路径中提取分区信息。”
https://stackoverflow.com/questions/51598404
复制相似问题