首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Pyspark - Joins _ duplicate列

Pyspark - Joins _ duplicate列
EN

Stack Overflow用户
提问于 2020-05-19 01:10:24
回答 1查看 35关注 0票数 0

我有3个数据帧。它们中的每一个都有如下所示的列:

我使用下面的代码来连接它们:

代码语言:javascript
复制
cond = [df1.col8_S1 == df2.col8_S1, df1.col8_S2 == df2.col8_S2]
df = df1.join(df2,cond,how ='inner').drop('df1.col8_S1','df1.col8_S2')
cond = [df.col8_S1 == df3.col8_S1, df.col8_S2 == df3.col8_S2]
df4 = df.join(df3,cond,how ='inner').drop('df3.col8_S1','df3.col8_S2')

我正在将数据帧写入csv文件;但是,由于它们从col1到col7具有相同的列,因此由于列重复而导致写入失败。如何删除重复的列而不指定它们的名称。

EN

回答 1

Stack Overflow用户

发布于 2020-05-19 01:21:37

只需对join使用列名,而不是显式地使用equal op。

代码语言:javascript
复制
cond = ['col8_S1', 'col8_S2']
df = df1.join(df2, cond, how ='inner')
cond = ['col8_S1', 'col8_S2']
df4 = df.join(df3, cond, how ='inner')
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61875134

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档