文章/答案/技术大牛

发布

问在pyspark中创建rdd的rdd
EN

Stack Overflow用户

提问于 2019-11-17 19:01:59

回答 2查看 222关注 0票数 0

可以在pyspark中创建rdd的rdd吗？我试过了

rdd1=sc.parallelize([1,2,3])
rdd2=sc.parallelize([4,5,6])
rdd3=sc.parallelize([rdd1,rdd2])

并得到错误

python

apache-spark

pyspark

rdd

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-11-17 19:11:16

UNION方法可用于执行此操作

rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize([4, 5, 6])
rdd3 = sc.parallelize([7, 8, 9])

rdd = sc.union([rdd1, rdd2, rdd3])
rdd.collect()

## [1, 2, 3, 4, 5, 6, 7, 8, 9]

另外，现在建议使用DataFrame或Dataset应用编程接口。

票数 0

Stack Overflow用户

发布于 2019-11-17 19:12:28

你可以加入2个RDD

rdd1.join(rdd2)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58899809

复制

相似问题

问在pyspark中创建rdd的rdd
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在pyspark中创建rdd的rddEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在pyspark中创建rdd的rdd
EN