我有一个代码,它试图与多个数据帧进行左连接,因为从每个数据帧构建的属性将定位在我试图编写的最终json文件中的不同位置。此外,代码将随着新元素的添加而增长。使用目前的方法,代码几乎需要3-4个小时,最后由于性能问题而中止。解决此性能问题的更好方法是什么?Lkp_df1 lkd_df2 etc Main_df =main_df.join(按键,‘left’) .select( ....)是我在代码中使用的模式
发布于 2020-09-18 10:08:34
请粘贴您的整个代码。尝试使用persist或checkpoint,同时检查分区数量和跨集群的数据分布
https://stackoverflow.com/questions/63948327
复制相似问题