我正在给我的小学生进行Spark的培训,并在我的脑海中想到了这个问题。我知道RDD的概念知识,它是多么伟大的概念,以及它是如何使分布式编程变得更快的。
但是,对我给他的关于RDD的解释并不满意。想要获得最好的描述,并张贴这个问题。
发布于 2015-08-17 17:48:46
下面是RDD接口的简单说明,取自:Spark Summit 2015
RDD接口包含
在给定k/v RDDs (“splits”)
现在以HadoopRDD为例
数据块分区=每个HDFS一个block
以FilteredRDD为例
无筛选器分区=与父分区相同RDD
因此,RDD基本上只是一种数据结构,用于存储谱系和其他信息,以便在发生故障时重新创建它,这是Matei Zaharia论文背后的主要思想。
https://stackoverflow.com/questions/32022359
复制相似问题