文章/答案/技术大牛

发布

社区首页 >问答首页 >组合(不是sql连接)2个spark数据帧

问组合(不是sql连接)2个spark数据帧
EN

Stack Overflow用户

提问于 2019-04-11 03:48:37

回答 2查看 21关注 0票数 0

我有两个很大的数据帧，下面是示例。

第一

firstnames|lastnames|age
tom|form|24
bob|lip|36
....

第二

firstnames|lastnames|age
mary|gu|24
jane|lip|36
...

我想把这两个数据帧合并成一个看起来像这样的：

firstnames|lastnames|age
tom|form|24
bob|lip|36
mary|gu|24
jane|lip|36
...

现在我可以把它们都写出来，然后一起读，但这是一个巨大的浪费。

apache-spark

apache-spark-sql

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-04-11 06:56:30

如果两个数据帧在结构上是相同的，那么它就是直接的-union()

df1.union(df2)

如果任何dataframe有任何缺失列，那么您需要在dataframe中的特定列位置添加虚拟列，否则联合将抛出列不匹配异常。在下面的示例中，df1中缺少列'c3‘，因此我在最后一个位置添加了df1中的虚拟列。

from pyspark.sql.functions import lit

df1.select('c1','c2',lit('dummy')).union(df2.select('c1','c2','c3'))

票数 1

Stack Overflow用户

发布于 2019-04-11 03:53:16

这是一个简单的示例，如下所示:联合https://docs.databricks.com/spark/latest/faq/append-a-row-to-rdd-or-dataframe.html

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55620286

复制

相似问题

问组合(不是sql连接)2个spark数据帧
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问组合(不是sql连接)2个spark数据帧EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问组合(不是sql连接)2个spark数据帧
EN