我有一个需要从pyspark.sql.DataFrame中过滤的ID列表。ID有3000000个值。我使用的方法是
df_tmp.filter(fn.col("device_id").isin(device_id))这需要很长时间,而且会卡住。这个的替代方案是什么?
发布于 2021-07-30 08:37:53
试试这个:
from pyspark.sql import functions as F
df_temp.join(
F.broadcast(
spark.createDataFrame(
[(ID_,) for ID_ in device_id],
["device_id"],
)
),
on="device_id",
)https://stackoverflow.com/questions/68585481
复制相似问题