可以在pyspark中创建rdd的rdd吗?我试过了
rdd1=sc.parallelize([1,2,3])
rdd2=sc.parallelize([4,5,6])
rdd3=sc.parallelize([rdd1,rdd2])并得到错误
发布于 2019-11-17 19:11:16
UNION方法可用于执行此操作
rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize([4, 5, 6])
rdd3 = sc.parallelize([7, 8, 9])
rdd = sc.union([rdd1, rdd2, rdd3])
rdd.collect()
## [1, 2, 3, 4, 5, 6, 7, 8, 9]另外,现在建议使用DataFrame或Dataset应用编程接口。
发布于 2019-11-17 19:12:28
你可以加入2个RDD
rdd1.join(rdd2)
https://stackoverflow.com/questions/58899809
复制相似问题