首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >手柄火花DataFrame结构

手柄火花DataFrame结构
EN

Stack Overflow用户
提问于 2022-02-16 16:09:41
回答 1查看 39关注 0票数 -1

假设我们有以下两个表

代码语言:javascript
复制
+---------+--------+
|AUTHOR_ID| NAME   |     
+---------+--------+
|  102    |Camus   |
|  103    |Hugo    |

+---------+-------- +------------
|AUTHOR_ID| BOOK_ID + BOOK_NAME  |     
+---------+-------- + -----------|
|  1      |Camus    | Etranger
|  1      |Hugo     | Mesirable  |

我想加入这两个表,以便使用以下模式获得一个DataFrame

代码语言:javascript
复制
root
 |-- AUTHORID: integer
 |-- NAME: string 
 |-- BOOK_LIST: array 
 |    |-- BOOK_ID: integer 
 |    |-- BOOK_NAME: string 

我用的是,谢谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-02-16 16:28:13

简单的join + group应该完成以下工作:

代码语言:javascript
复制
from pyspark.sql import functions as F

result = (df_authors.join(df_books, on=["AUTHOR_ID"], how="left")
          .groupBy("AUTHOR_ID", "NAME")
          .agg(F.collect_list(F.struct("BOOK_ID", "BOOK_NAME")))
          )

在聚合中,我们使用collect_list创建结构数组。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71145301

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档