首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Pyspark体验

Pyspark体验
EN

Stack Overflow用户
提问于 2022-03-03 17:40:50
回答 1查看 257关注 0票数 0

那里。我对myself非常陌生,我自己也在学习UDF。我意识到UDF有时会减慢代码的速度。我想知道你的经历。您应用了什么UDF功能(不能仅用Pyspark代码实现)。有什么有用的UDF函数可以帮助您清理数据吗?除了Pyspark文档之外,还有什么资源可以帮助我学习UDF函数吗?

EN

回答 1

Stack Overflow用户

发布于 2022-03-03 19:39:31

您可以在标准库函数spark中找到大多数所需的功能。导入pyspark.sql.functions -检查此处的文档https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.functions

现在,有时您确实必须创建自定义的UDF,但是要注意,它确实会减慢,因为spark必须对每个dataframe行进行评估。尽量避免这种情况。

当您没有任何其他选项时,请使用它,但尽量减少复杂性和您使用的外部库。

另一种方法是使用RDD,这意味着将数据转换为rdd (MYDF.rdd)。

就在您调用mapPartitionsmap之后,它们接受一个操作数据的函数。它基本上每次发送块作为星火Row实体的列表。

在这里阅读更多关于mapPartitionsmap的信息:https://sparkbyexamples.com/spark/spark-map-vs-mappartitions-transformation/

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71341471

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档