文章/答案/技术大牛

发布

社区首页 >问答首页 >Spark/Koalas实现pandas resample('D')方法

问Spark/Koalas实现pandas resample('D')方法
EN

Stack Overflow用户

提问于 2020-08-04 06:07:00

回答 1查看 276关注 0票数 0

我有一个Spark数据帧需要填充。数据帧大小较大(>1亿行)。我可以使用pandas实现我想要的效果，如下所示。

new_df = df_pd.set_index('someDateColumn') \
              .groupby(['Column1', 'Column2', 'Column3']) \
              .resample('D') \
              .ffill() \
              .reset_index(['Column1', 'Column2', 'Column3'], drop=True) \
              .reset_index()

在使用考拉尝试.resample('D')时，我被卡住了。有没有更好的方法来替代spark原生函数中的ffill复制逻辑呢？原因是，我想避免pandas，因为它不是分布式的，只在Driver Node上执行。

如何使用Spark/Koalas包实现与上述相同的功能？

python

apache-spark

pyspark

databricks

spark-koalas

回答 1

Stack Overflow用户

发布于 2020-08-04 13:49:13

如果您正在寻找Spark中的forward fill，请按照以下教程进行操作，以满足您的需求- here

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63237579

复制

相似问题

问Spark/Koalas实现pandas resample('D')方法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark/Koalas实现pandas resample('D')方法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark/Koalas实现pandas resample('D')方法
EN