w3 = Window.partitionBy("product_cat").orderBy(col("crt_dt").desc())
df.withColumn("row",row_number().over(w3)) \
  .filter(col("row") == 1).drop("row") \
  .show()

有关更多详细信息，请查看此https://sparkbyexamples.com/pyspark/pyspark-select-first-row-of-each-group/

票数 0

Stack Overflow用户

发布于 2022-10-14 19:56:25

您有一个数据集，您希望对其进行筛选，然后将其写入Delta表。

另一张海报告诉你如何过滤数据以满足你的要求。下面是如何过滤数据，然后写出数据。

filtered_df = df.withColumn("row",row_number().over(w3)) \
  .filter(col("row") == 1).drop("row") \
  .show()

filtered_df.write.format("delta").mode("append").save("path/to/delta_lake")

如果您不使用Python，也可以使用SQL完成此操作。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/74031506

复制

相似问题

问只需要根据当前月份使用使用databricks的火星雨增量负载来更新数量
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问只需要根据当前月份使用使用databricks的火星雨增量负载来更新数量EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问只需要根据当前月份使用使用databricks的火星雨增量负载来更新数量
EN