文章/答案/技术大牛

发布

问参加rdd并保持rdd
EN

Stack Overflow用户

提问于 2016-03-03 22:23:42

回答 2查看 3.4K关注 0票数 5

我找不到一种方法只在rdd上占一部分。take看起来很有希望，但它返回的是list而不是rdd。当然，我可以将其转换为rdd，但这看起来既浪费又丑陋。

 my_rdd = sc.textFile("my_file.csv")
 part_of_my_rdd = sc.parallelize(my_rdd.take(10000))

我有更好的方法吗？

apache-spark

pyspark

回答 2

Stack Overflow用户

回答已采纳

发布于 2016-03-03 22:26:29

是的，确实有更好的办法。您可以使用来自示例的RDD方法，它声明：

样品(withReplacement，分数，seed=None) 返回此RDD的抽样子集。

quantity = 10000
my_rdd = sc.textFile("my_file.csv")
part_of_my_rdd = my_rdd.sample(False, quantity / my_rdd.count())

票数 2

Stack Overflow用户

发布于 2019-07-18 07:26:33

@Akavall，这是个好主意。但格式有一些变化。

my_rdd = sc.textFile("my_file.csv")
part_of_my_rdd = sc.parallelize(my_rdd.take(10000)).map(x=>x.slice(1, x.length-1))

去掉括号是可以的！

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35784263

复制

相似问题

问参加rdd并保持rdd
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问参加rdd并保持rddEN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问参加rdd并保持rdd
EN