我有两个很大的数据帧,下面是示例。
第一
firstnames|lastnames|age
tom|form|24
bob|lip|36
....第二
firstnames|lastnames|age
mary|gu|24
jane|lip|36
...我想把这两个数据帧合并成一个看起来像这样的:
firstnames|lastnames|age
tom|form|24
bob|lip|36
mary|gu|24
jane|lip|36
...现在我可以把它们都写出来,然后一起读,但这是一个巨大的浪费。
发布于 2019-04-11 06:56:30
如果两个数据帧在结构上是相同的,那么它就是直接的-union()
df1.union(df2)如果任何dataframe有任何缺失列,那么您需要在dataframe中的特定列位置添加虚拟列,否则联合将抛出列不匹配异常。在下面的示例中,df1中缺少列'c3‘,因此我在最后一个位置添加了df1中的虚拟列。
from pyspark.sql.functions import lit
df1.select('c1','c2',lit('dummy')).union(df2.select('c1','c2','c3'))发布于 2019-04-11 03:53:16
https://stackoverflow.com/questions/55620286
复制相似问题