文章/答案/技术大牛

发布

社区首页 >问答首页 >PySpark -在executor上将python数据结构转换为RDD

问PySpark -在executor上将python数据结构转换为RDD
EN

Stack Overflow用户

提问于 2016-10-12 12:53:57

回答 1查看 472关注 0票数 0

我使用Spark并行处理一些执行数据提取并返回熊猫数据的现有代码。我想把这些熊猫的数据转换成一个或多个火花数据。

注：现有代码非常复杂(涉及调用本机库等)，因此将其直接移植到Spark代码并不是一种选择。

下面是一个简化的代码示例：

import pandas as pd

def extract_df(s):
    # Lots of existing code that returns a large pandas dataframe
    # ...
    return pd.DataFrame({'x': s, 'y': [1, 2, 3], 'z': [4, 5, 6]})

sRDD = spark.sparkContext.parallelize(['A', 'B', 'C'])
dfsRDD = sRDD.map(lambda s: extract_df(s))

我知道我可以通过收集驱动程序将datesRDD转换成Spark。

spark.createDataFrame(pd.concat(rdd.collect(), ignore_index=True)).show()

但是，这当然要求我可以将Pandas的全部数据存储在内存中，而我不能。

目前，我正在S3上为json编写，然后使用Spark阅读，但这需要大量的存储。

有什么方法可以让斯派克在执行器本身上转换成DataFrame/RDD？还是我错过了另一种方法？

pyspark

spark-dataframe

apache-spark

回答 1

Stack Overflow用户

发布于 2016-10-12 13:29:34

好样的，flatMap来救你！

import pandas as pd

def extract_df(s):
    # Lots of existing code that returns a **huge** pandas dataframe
    # ...
    df =  pd.DataFrame({'x': s, 'y': [1, 2, 3], 'z': [4, 5, 6]})
    return df.values.tolist()

datesRDD = spark.sparkContext.parallelize(['A', 'B', 'C'])

dfsRDD = datesRDD.flatMap(lambda s: extract_df(s))

spark.createDataFrame(dfsRDD, schema=['x', 'y', 'z']).show()

+---+---+---+
|  x|  y|  z|
+---+---+---+
|  A|  1|  4|
|  A|  2|  5|
|  A|  3|  6|
|  B|  1|  4|
|  B|  2|  5|
|  B|  3|  6|
|  C|  1|  4|
|  C|  2|  5|
|  C|  3|  6|
+---+---+---+

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/39999121

复制

相似问题

问PySpark -在executor上将python数据结构转换为RDD
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PySpark -在executor上将python数据结构转换为RDDEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PySpark -在executor上将python数据结构转换为RDD
EN