首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >蜂窝分区到火花分区

蜂窝分区到火花分区
EN

Stack Overflow用户
提问于 2018-07-30 16:25:33
回答 1查看 1K关注 0票数 0

出于效率的原因,我们需要处理一个大的数据集。数据源驻留在Hive中,但具有不同的分区条件。换句话说,我们需要从蜂巢检索数据到火花,并在星火中重新分区。

但是在Spark中有一个问题,当数据被持久化时,它会导致重新排序/重新分配分区(无论是对parquet还是ORC)。因此,我们在星火中的新分区丢失了。

作为一种选择,我们正在考虑在一个新的Hive表中构建新的分区。问题是:是否可以从Hive分区映射Spark分区(用于阅读)?

EN

回答 1

Stack Overflow用户

发布于 2018-07-30 20:58:57

分区发现->可能是您要寻找的内容:

“将路径/ to /table传递给SparkSession.read.parquet或SparkSession.read.load,Spark将自动从路径中提取分区信息。”

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51598404

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档