文章/答案/技术大牛

发布

问手柄火花DataFrame结构
EN

Stack Overflow用户

提问于 2022-02-16 16:09:41

回答 1查看 39关注 0票数 -1

假设我们有以下两个表

+---------+--------+
|AUTHOR_ID| NAME   |     
+---------+--------+
|  102    |Camus   |
|  103    |Hugo    |

+---------+-------- +------------
|AUTHOR_ID| BOOK_ID + BOOK_NAME  |     
+---------+-------- + -----------|
|  1      |Camus    | Etranger
|  1      |Hugo     | Mesirable  |

我想加入这两个表，以便使用以下模式获得一个DataFrame

root
 |-- AUTHORID: integer
 |-- NAME: string 
 |-- BOOK_LIST: array 
 |    |-- BOOK_ID: integer 
 |    |-- BOOK_NAME: string

我用的是，谢谢

pyspark

apache-spark-sql

python

dataframe

apache-spark

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-02-16 16:28:13

简单的join + group应该完成以下工作：

from pyspark.sql import functions as F

result = (df_authors.join(df_books, on=["AUTHOR_ID"], how="left")
          .groupBy("AUTHOR_ID", "NAME")
          .agg(F.collect_list(F.struct("BOOK_ID", "BOOK_NAME")))
          )

在聚合中，我们使用collect_list创建结构数组。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71145301

复制

相似问题

问手柄火花DataFrame结构
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问手柄火花DataFrame结构EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问手柄火花DataFrame结构
EN