首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >参加rdd并保持rdd

参加rdd并保持rdd
EN

Stack Overflow用户
提问于 2016-03-03 22:23:42
回答 2查看 3.4K关注 0票数 5

我找不到一种方法只在rdd上占一部分。take看起来很有希望,但它返回的是list而不是rdd。当然,我可以将其转换为rdd,但这看起来既浪费又丑陋。

代码语言:javascript
复制
 my_rdd = sc.textFile("my_file.csv")
 part_of_my_rdd = sc.parallelize(my_rdd.take(10000))

我有更好的方法吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-03-03 22:26:29

是的,确实有更好的办法。您可以使用来自示例RDD方法,它声明:

样品(withReplacement,分数,seed=None) 返回此RDD的抽样子集。

代码语言:javascript
复制
quantity = 10000
my_rdd = sc.textFile("my_file.csv")
part_of_my_rdd = my_rdd.sample(False, quantity / my_rdd.count())
票数 2
EN

Stack Overflow用户

发布于 2019-07-18 07:26:33

@Akavall,这是个好主意。但格式有一些变化。

代码语言:javascript
复制
my_rdd = sc.textFile("my_file.csv")
part_of_my_rdd = sc.parallelize(my_rdd.take(10000)).map(x=>x.slice(1, x.length-1))

去掉括号是可以的!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35784263

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档