spak中有什么工具可以帮助理解代码是如何解释和执行的吗?例如分析工具或执行计划的细节,以帮助优化代码。
例如,我已经看到,最好在联接键上对两个数据帧进行分区,然后再将它们联接起来,以避免额外的混洗。我们怎么才能弄清楚呢?
发布于 2017-04-05 23:50:43
正如Pushkr所说,有了dataframe和dataset,我们可以使用.explain()方法来显示派生、分割和最终的混洗。
使用RDD,我们可以使用toDebugString来获得相同的结果。此外,还存在依赖关系来指示新的rdd是从具有窄依赖关系的前一个rdd派生出来的,还是从具有宽依赖关系的前一个rdd派生出来的。
https://stackoverflow.com/questions/43166954
复制相似问题