文章/答案/技术大牛

发布

社区首页 >问答首页 >按值将pyspark数据收集到列表中。

问按值将pyspark数据收集到列表中。
EN

Stack Overflow用户

提问于 2022-07-25 20:24:26

回答 2查看 175关注 0票数 0

我有以下数据：

+-------------------+-------------------+---------+--------------+--------+
|            fs_date|            ss_date|fs_origin|fs_destination|   price|
+-------------------+-------------------+---------+--------------+--------+
|2022-06-01T00:00:00|2022-06-02T00:00:00|      TLV|           AUH|681.0715|
|2022-06-01T00:00:00|2022-06-03T00:00:00|      TLV|           AUH|  406.46|
|2022-06-01T00:00:00|2022-06-02T00:00:00|      TLV|           BOM|545.7715|
|2022-06-01T00:00:00|2022-06-03T00:00:00|      TLV|           BOM| 372.435|

我想将整个数据收集到一个JSON列表中，按'fs_destination‘进行分区，如下所示：

{ "AUH":
  ['{"fs_date":"2022-06-01T00:00:00","ss_date":"2022-06-02T00:00:00","fs_origin":"TLV","fs_destination":"AUH","price":681.0715}',
   '{"fs_date":"2022-06-01T00:00:00","ss_date":"2022-06-03T00:00:00","fs_origin":"TLV","fs_destination":"AUH","price":406.46}'],
"BOM":
  ['{"fs_date":"2022-06-01T00:00:00","ss_date":"2022-06-02T00:00:00","fs_origin":"TLV","fs_destination":"BOM","price":545.7715}', 
   '{"fs_date":"2022-06-01T00:00:00","ss_date":"2022-06-02T00:00:00","fs_origin":"TLV","fs_destination":"BOM","price":372.435}']
}

谢谢!

python

dataframe

apache-spark

pyspark

回答 2

Stack Overflow用户

回答已采纳

发布于 2022-07-25 21:37:59

收集数据时要小心，确保群集具有容量。

import pyspark.sql.functions as f


df_output = (df
             .groupBy("fs_destination")
             .agg(f.collect_list(f.to_json(f.struct(*df.columns))).alias("JSON")))

output = {row["fs_destination"]: row["JSON"] for row in df_output.toLocalIterator()}

输出

{
  'AUH': [
    '{"fs_date":"2022-06-01T00:00:00","ss_date":"2022-06-02T00:00:00","fs_origin":"TLV","fs_destination":"AUH","price":681.0715}',
    '{"fs_date":"2022-06-01T00:00:00","ss_date":"2022-06-03T00:00:00","fs_origin":"TLV","fs_destination":"AUH","price":406.46}'
  ],
  'BOM': [
    '{"fs_date":"2022-06-01T00:00:00","ss_date":"2022-06-02T00:00:00","fs_origin":"TLV","fs_destination":"BOM","price":545.7715}',
    '{"fs_date":"2022-06-01T00:00:00","ss_date":"2022-06-03T00:00:00","fs_origin":"TLV","fs_destination":"BOM","price":372.435}'
  ]
}

票数 1

Stack Overflow用户

发布于 2022-07-25 21:27:13

试试这个：

import pyspark.sql.functions as f
df = (
    df
    .withColumn('jsonValue', f.to_json(f.struct(*df.columns)))
    .groupBy('fs_destination')
    .agg(f.collect_list('jsonValue').alias('jsonValues'))
)

df_collected = df.collect()

output = dict(zip(
    [element['fs_destination'] for element in df_collected],
    [element['jsonValues'] for element in df_collected]
))

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/73114965

复制

相似问题

问按值将pyspark数据收集到列表中。
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问按值将pyspark数据收集到列表中。EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问按值将pyspark数据收集到列表中。
EN