文章/答案/技术大牛

发布

社区首页 >问答首页 >更新来自两个数据框架的数据Scala-Spark

问更新来自两个数据框架的数据Scala-Spark
EN

Stack Overflow用户

提问于 2018-07-06 11:40:54

回答 1查看 34关注 0票数 0

我有两个数据帧：

DF1:
    ID | Col1 | Col2
    1    a      aa 
    2    b      bb
    3    c      cc

DF2:
    ID | Col1 | Col2
    1    ab      aa 
    2    b       bba
    4    d       dd

我如何加入这两个外勤部，结果应该是：

Result:
        1    ab      aa 
        2    b       bba
        3    c       cc
        4    d       dd

我的代码是：

val df = DF1.join(DF2, Seq("ID"), "outer")
        .select($"ID",
          when(DF1("Col1").isNull, lit(0)).otherwise(DF1("Col1")).as("Col1"),
          when(DF1("Col2").isNull, lit(0)).otherwise(DF2("Col2")).as("Col2"))
            .orderBy("ID")

它可以工作，但我不想指定每一列，因为我有大型文件。那么，在不指定每一列的情况下，是否有任何方法来更新dataframe (如果在第二个DF中添加了一些新的)？

scala

apache-spark

dataframe

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-07-06 12:05:05

一个简单的leftanti将df1与df2连接起来，并将结果合并到df2中，应该得到您想要的输出如下

df2.union(df1.join(df2, Seq("ID"), "leftanti")).orderBy("ID").show(false)

这应该会给你

+---+----+----+
|ID |Col1|Col2|
+---+----+----+
|1  |ab  |aa  |
|2  |b   |bba |
|3  |c   |cc  |
|4  |d   |dd  |
+---+----+----+

解决方案与代码中的逻辑不匹配，但会生成预期的结果

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51209665

复制

相似问题

问更新来自两个数据框架的数据Scala-Spark
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问更新来自两个数据框架的数据Scala-SparkEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问更新来自两个数据框架的数据Scala-Spark
EN