首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >比较两个rdd,将与正确rdd匹配的值放入rdd

比较两个rdd,将与正确rdd匹配的值放入rdd
EN

Stack Overflow用户
提问于 2016-04-23 23:58:58
回答 1查看 3.2K关注 0票数 0

我有两个rdd

代码语言:javascript
复制
rdd1       rdd2
1,abc      3,asd
2,edc      4,qwe 
3,wer      5,axc
4,ert
5,tyu
6,sdf
7,ghj

比较两个rdd,一旦与id匹配,将使用从rdd2到rdd1的值进行更新。我知道rdd是不变的,所以我认为新的rdd将会被创建。输出的rdd将如下所示

代码语言:javascript
复制
output rdd       
    1,abc      
    2,edc       
    3,asd      
    4,qwe
    5,axc
    6,sdf
    7,ghj

这是一个基本的东西,但是,我是一个新的火花和scala和尝试的东西。

EN

回答 1

Stack Overflow用户

发布于 2016-04-24 00:12:16

使用leftOuterJoin按键匹配两个RDD,然后使用map选择“新值”(来自rdd2) (如果存在),否则保留“旧”值:

代码语言:javascript
复制
// sample data:
val rdd1 = sc.parallelize(Seq((1, "aaa"), (2, "bbb"), (3, "ccc")))
val rdd2 = sc.parallelize(Seq((3, "333"), (4, "444"), (5, "555")))

val result = rdd1.leftOuterJoin(rdd2).map { 
  case (key, (oldV, maybeNewV)) => (key, maybeNewV.getOrElse(oldV)) 
}
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36813071

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档