首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么groupByKey操作总是有200个任务?

为什么groupByKey操作总是有200个任务?
EN

Stack Overflow用户
提问于 2015-07-07 18:23:00
回答 1查看 1.5K关注 0票数 4

每当我在RDD上执行groupByKey时,它会被分成200个作业,即使原始表非常大,例如2k分区和数千万行。

此外,操作似乎在最后两个任务上卡住了,这两个任务需要极长的计算时间。

为什么是200?如何增加它?它会有帮助吗?

EN

回答 1

Stack Overflow用户

发布于 2015-07-07 19:06:35

此设置来自spark.sql.shuffle.partitions,它是分组时使用的分区数,并且具有default setting of 200,但可以增加。这可能会有所帮助,它将依赖于集群和数据。

最后两个任务花费的时间非常长,这是因为数据不对称,这些键包含更多的值。您可以使用reduceByKey / combineByKey而不是groupByKey,或者以不同的方式并行化问题吗?

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31265927

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档