首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用连接多个df时的性能问题

使用连接多个df时的性能问题
EN

Stack Overflow用户
提问于 2020-09-18 10:01:18
回答 1查看 18关注 0票数 0

我有一个代码,它试图与多个数据帧进行左连接,因为从每个数据帧构建的属性将定位在我试图编写的最终json文件中的不同位置。此外,代码将随着新元素的添加而增长。使用目前的方法,代码几乎需要3-4个小时,最后由于性能问题而中止。解决此性能问题的更好方法是什么?Lkp_df1 lkd_df2 etc Main_df =main_df.join(按键,‘left’) .select( ....)是我在代码中使用的模式

EN

回答 1

Stack Overflow用户

发布于 2020-09-18 10:08:34

请粘贴您的整个代码。尝试使用persist或checkpoint,同时检查分区数量和跨集群的数据分布

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63948327

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档