问spark.default.parallelism等价于火花数据仓库
EN

Stack Overflow用户

提问于 2019-11-18 23:29:45

回答 1查看 1.8K关注 0票数 2

问题

对于描述转换(map、filter等)的SparkSQL DataFrame，是否有“SparkSQL”等效？

背景

显然，RDD和DataFrame的分娩控制是不同的。Dataframe有spark.sql.shuffle.partitions来控制重装分区(如果我正确理解的话，可以进行广泛的转换)，而"spark.default.parallelism“不会产生任何影响。

但是洗牌与分区有什么关系呢？如果您正在使用RDDs…，那么实际上没有什么问题。但是有了数据处理，情况就不一样了。..。如您所见，分区数突然增加。这是因为Spark模块包含以下默认配置: spark.sql.shuffle.partitions设置为200。

下面的文章指出，spark.default.parallelism不适用于Dataframe。

当用户不显式设置时，spark.default.parallelism是RDD中由连接、reduceByKey和并行化等转换返回的默认分区数。但是，spark.default.parallelism似乎只适用于原始RDD，并且在处理数据帧时被忽略。

回答已采纳

发布于 2019-11-19 16:33:01

窄转换(map、filter)保留分区数，这就是不需要设置并行性的原因。对于可能影响分区数量的转换，设置才有意义。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58924453

复制

相似问题

问spark.default.parallelism等价于火花数据仓库EN