首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Pyspark -避免使用explode

Pyspark -避免使用explode
EN

Stack Overflow用户
提问于 2021-07-09 06:02:09
回答 1查看 62关注 0票数 0

我想检查数组列的值是否等于"A“,而不使用"explode”或"UDF“,因为这会使我的DataFrame非常大,处理速度非常慢。

所以我有这个

代码语言:javascript
复制
+-----+----+--------------------+---------+
| Name| Age|            Subjects|   Grades|
+-----+----+--------------------+---------+
|[Bob]|[16]|[Maths, Physics, ...|[A, B, C]|
+-----+----+--------------------+---------+

我想要这个

代码语言:javascript
复制
+-----+----+--------------------+---------+--------------------+
| Name| Age|            Subjects|   Grades|         test       |
+-----+----+--------------------+---------+--------------------+
|[Bob]|[16]|[Maths, Physics, ...|[A, B, C]|[true, false, false]|
+-----+----+--------------------+---------+--------------------+

有什么解决方案吗?

先谢谢你。

EN

回答 1

Stack Overflow用户

发布于 2021-07-09 07:23:15

您可以使用SQL TRANSFORM来实现此目的。

代码语言:javascript
复制
import pyspark.sql.functions as F

df = df.withColumn("test", F.expr("TRANSFORM(Grades, x -> x = 'A')"))
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68309081

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档