文章/答案/技术大牛

发布

社区首页 >问答首页 >星火中的数据融合

问星火中的数据融合
EN

Stack Overflow用户

提问于 2016-08-01 19:28:42

回答 2查看 1.6K关注 0票数 0

我有两个Dataframes，比如A& B。我想加入到一个键列中，并创建另一个Dataframe。当A & B键匹配时，我需要的是B行，而不是A行。

例如：

DataFrame A：

Employee1, salary100
Employee2, salary50
Employee3, salary200

DataFrame B

Employee1, salary150
Employee2, salary100
Employee4, salary300

由此产生的DataFrame应该是：

DataFrame C：

Employee1, salary150
Employee2, salary100
Employee3, salary200
Employee4, salary300

我如何在Spark & Scala中做到这一点？

spark-dataframe

scala

apache-spark

apache-spark-sql

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-08-01 19:34:51

尝试：

dfA.registerTempTable("dfA")
dfB.registerTempTable("dfB")

sqlContext.sql("""
SELECT coalesce(dfA.employee, dfB.employee), 
       coalesce(dfB.salary, dfA.salary) FROM dfA FULL OUTER JOIN dfB
ON dfA.employee = dfB.employee""")

或

sqlContext.sql("""
SELECT coalesce(dfA.employee, dfB.employee),
  CASE dfB.employee IS NOT NULL THEN dfB.salary
  CASE dfB.employee IS NOT NULL THEN dfA.salary
  END FROM dfA FULL OUTER JOIN dfB
ON dfA.employee = dfB.employee""")

票数 1

Stack Overflow用户

发布于 2016-08-01 20:57:20

假设dfA和dfB有2列emp和sal。您可以使用以下内容：

import org.apache.spark.sql.{functions => f}

val dfB1 = dfB
  .withColumnRenamed("sal", "salB")
  .withColumnRenamed("emp", "empB")

val joined = dfA
  .join(dfB1, 'emp === 'empB, "outer")
  .select(
    f.coalesce('empB, 'emp).as("emp"),
    f.coalesce('salB, 'sal).as("sal")
  )

注意:对于emp的给定值，每个Dataframe应该只有一行。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38706677

复制

相似问题

问星火中的数据融合
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问星火中的数据融合EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问星火中的数据融合
EN