首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在PySpark中连接多个数据帧

在PySpark中连接多个数据帧
EN

Stack Overflow用户
提问于 2019-06-12 06:50:28
回答 1查看 1.2K关注 0票数 0

我有以下几个数据帧,每列有两列,行数完全相同。如何将它们连接起来,以便从两个数据框架中得到一个具有两列和所有行的单一数据框架?

例如:

DataFrame-1

代码语言:javascript
复制
+--------------+-------------+
| colS         |  label      |
+--------------+-------------+
| sample_0_URI |  0          |
| sample_0_URI |  0          |
+--------------+-------------+

数据帧-2

代码语言:javascript
复制
+--------------+-------------+
| colS         |  label      |
+--------------+-------------+
| sample_1_URI |  1          |
| sample_1_URI |  1          |
+--------------+-------------+

DataFrame-3

代码语言:javascript
复制
+--------------+-------------+
| col1         |  label      |
+--------------+-------------+
| sample_2_URI |  2          |
| sample_2_URI |  2          |
+--------------+-------------+

数据帧-4

代码语言:javascript
复制
+--------------+-------------+
| col1         |  label      |
+--------------+-------------+
| sample_3_URI |  3          |
| sample_3_URI |  3          |
+--------------+-------------+

..。

我希望加入的结果是:

代码语言:javascript
复制
+--------------+-------------+
| col1         |  label      |
+--------------+-------------+
| sample_0_URI |  0          |
| sample_0_URI |  0          |
| sample_1_URI |  1          |
| sample_1_URI |  1          |
| sample_2_URI |  2          |
| sample_2_URI |  2          |
| sample_3_URI |  3          |
| sample_3_URI |  3          |
+--------------+-------------+

现在,如果我想对label列执行一次热编码,应该是这样的:

代码语言:javascript
复制
oe = OneHotEncoder(inputCol="label",outputCol="one_hot_label")
df = oe.transform(df) # df is the joined dataframes <cols, label>
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-06-12 06:53:09

你在找union

在本例中,我要做的是将数据存储在list中并使用reduce

代码语言:javascript
复制
from functools import reduce

dataframes = [df_1, df_2, df_3, df_4]

result = reduce(lambda first, second: first.union(second), dataframes)
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56556177

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档