问数据集中的拆分数超过了数据集拆分限制，Dremio+Hive+Spark
EN

Stack Overflow用户

提问于 2019-11-06 04:33:42

回答 1查看 362关注 0票数 0

我们有一个由Hadoop+Hive+Spark+Dremio组成的堆栈，由于Spark为单个Hive分区(取决于工作进程)写入许多HDFS文件，所以在查询表时，由于HDFS文件的数量超过了限制，Dremio会失败，有没有办法解决这个问题，而不必手动在spark中设置更少的工作进程？(我们不想失去spark分布式性能和好处)。

apache-spark

hadoop

hive

dremio

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-11-06 06:47:10

您可以使用repartition，它将为每个分区创建一个文件。这将确保每个分区至少有一个任务，这将确保在spark作业中维护足够的并行性。

df.repartition($"a", $"b", $"c", $"d", $"e").write.partitionBy("a", "b", "c", "d", "e").mode(SaveMode.Append).parquet(s"$location")

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58719052

复制

相似问题

问数据集中的拆分数超过了数据集拆分限制，Dremio+Hive+Spark
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据集中的拆分数超过了数据集拆分限制，Dremio+Hive+SparkEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据集中的拆分数超过了数据集拆分限制，Dremio+Hive+Spark
EN