我有一个Spark数据帧需要填充。数据帧大小较大(>1亿行)。我可以使用pandas实现我想要的效果,如下所示。
new_df = df_pd.set_index('someDateColumn') \
.groupby(['Column1', 'Column2', 'Column3']) \
.resample('D') \
.ffill() \
.reset_index(['Column1', 'Column2', 'Column3'], drop=True) \
.reset_index()在使用考拉尝试.resample('D')时,我被卡住了。有没有更好的方法来替代spark原生函数中的ffill复制逻辑呢?原因是,我想避免pandas,因为它不是分布式的,只在Driver Node上执行。
如何使用Spark/Koalas包实现与上述相同的功能?
发布于 2020-08-04 13:49:13
如果您正在寻找Spark中的forward fill,请按照以下教程进行操作,以满足您的需求- here
https://stackoverflow.com/questions/63237579
复制相似问题