首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >spark.default.parallelism等价于火花数据仓库

spark.default.parallelism等价于火花数据仓库
EN

Stack Overflow用户
提问于 2019-11-18 23:29:45
回答 1查看 1.8K关注 0票数 2

问题

对于描述转换(map、filter等)的SparkSQL DataFrame,是否有“SparkSQL”等效?

背景

显然,RDD和DataFrame的分娩控制是不同的。Dataframe有spark.sql.shuffle.partitions来控制重装分区(如果我正确理解的话,可以进行广泛的转换),而"spark.default.parallelism“不会产生任何影响。

Spark dataframe洗牌如何会损害分区

但是洗牌与分区有什么关系呢?如果您正在使用RDDs…,那么实际上没有什么问题。但是有了数据处理,情况就不一样了。..。如您所见,分区数突然增加。这是因为Spark模块包含以下默认配置: spark.sql.shuffle.partitions设置为200。

下面的文章指出,spark.default.parallelism不适用于Dataframe。

spark.sql.shuffle.partitions和spark.default.parallelism有什么区别?

当用户不显式设置时,spark.default.parallelism是RDD中由连接、reduceByKey和并行化等转换返回的默认分区数。但是,spark.default.parallelism似乎只适用于原始RDD,并且在处理数据帧时被忽略。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-11-19 16:33:01

窄转换(mapfilter)保留分区数,这就是不需要设置并行性的原因。对于可能影响分区数量的转换,设置才有意义。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58924453

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档