首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据集中的拆分数超过了数据集拆分限制,Dremio+Hive+Spark

数据集中的拆分数超过了数据集拆分限制,Dremio+Hive+Spark
EN

Stack Overflow用户
提问于 2019-11-06 04:33:42
回答 1查看 362关注 0票数 0

我们有一个由Hadoop+Hive+Spark+Dremio组成的堆栈,由于Spark为单个Hive分区(取决于工作进程)写入许多HDFS文件,所以在查询表时,由于HDFS文件的数量超过了限制,Dremio会失败,有没有办法解决这个问题,而不必手动在spark中设置更少的工作进程?(我们不想失去spark分布式性能和好处)。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-11-06 06:47:10

您可以使用repartition,它将为每个分区创建一个文件。这将确保每个分区至少有一个任务,这将确保在spark作业中维护足够的并行性。

代码语言:javascript
复制
df.repartition($"a", $"b", $"c", $"d", $"e").write.partitionBy("a", "b", "c", "d", "e").mode(SaveMode.Append).parquet(s"$location")
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58719052

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档