首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Apache火花处理倾斜数据

Apache火花处理倾斜数据
EN

Stack Overflow用户
提问于 2016-08-15 18:14:58
回答 1查看 8.9K关注 0票数 10

我想把两张桌子连接在一起。其中之一有非常严重的数据倾斜。这导致我的火花作业不能并行运行,因为大部分工作都是在一个分区上完成的。

我听过,读过,并试图实施盐碱化我的密钥,以增加分发。12:45秒的https://www.youtube.com/watch?v=WyfHUNnMutg正是我想要做的。

如有任何帮助或建议,将不胜感激。谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-08-15 19:58:22

是的,您应该在较大的表上使用盐渍键(通过随机化),然后将较小的键/笛卡儿键复制到新的盐渍表中:

以下是一些建议:

Tresata斜加入RDD https://github.com/tresata/spark-skewjoin python斜连接:https://datarus.wordpress.com/2015/05/04/fighting-the-skew-in-spark/

tresata库如下所示:

代码语言:javascript
复制
import com.tresata.spark.skewjoin.Dsl._  // for the implicits   

// skewjoin() method pulled in by the implicits
rdd1.skewJoin(rdd2, defaultPartitioner(rdd1, rdd2),   
DefaultSkewReplication(1)).sortByKey(true).collect.toLis
票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38960599

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档