首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在pyspark中创建rdd的rdd

在pyspark中创建rdd的rdd
EN

Stack Overflow用户
提问于 2019-11-17 19:01:59
回答 2查看 222关注 0票数 0

可以在pyspark中创建rdd的rdd吗?我试过了

代码语言:javascript
复制
rdd1=sc.parallelize([1,2,3])
rdd2=sc.parallelize([4,5,6])
rdd3=sc.parallelize([rdd1,rdd2])

并得到错误

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-11-17 19:11:16

UNION方法可用于执行此操作

代码语言:javascript
复制
rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize([4, 5, 6])
rdd3 = sc.parallelize([7, 8, 9])

rdd = sc.union([rdd1, rdd2, rdd3])
rdd.collect()

## [1, 2, 3, 4, 5, 6, 7, 8, 9]

另外,现在建议使用DataFrameDataset应用编程接口。

票数 0
EN

Stack Overflow用户

发布于 2019-11-17 19:12:28

你可以加入2个RDD

rdd1.join(rdd2)

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58899809

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档