问蜂窝分区到火花分区
EN

Stack Overflow用户

提问于 2018-07-30 16:25:33

回答 1查看 1K关注 0票数 0

出于效率的原因，我们需要处理一个大的数据集。数据源驻留在Hive中，但具有不同的分区条件。换句话说，我们需要从蜂巢检索数据到火花，并在星火中重新分区。

但是在Spark中有一个问题，当数据被持久化时，它会导致重新排序/重新分配分区(无论是对parquet还是ORC)。因此，我们在星火中的新分区丢失了。

作为一种选择，我们正在考虑在一个新的Hive表中构建新的分区。问题是:是否可以从Hive分区映射Spark分区(用于阅读)？

发布于 2018-07-30 20:58:57

分区发现->可能是您要寻找的内容：

“将路径/ to /table传递给SparkSession.read.parquet或SparkSession.read.load，Spark将自动从路径中提取分区信息。”

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51598404

复制

相似问题

问蜂窝分区到火花分区EN