首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我怎样才能清楚地解释Spark RDD到底是什么呢?

我怎样才能清楚地解释Spark RDD到底是什么呢?
EN

Stack Overflow用户
提问于 2015-08-15 14:54:43
回答 1查看 622关注 0票数 0

我正在给我的小学生进行Spark的培训,并在我的脑海中想到了这个问题。我知道RDD的概念知识,它是多么伟大的概念,以及它是如何使分布式编程变得更快的。

但是,对我给他的关于RDD的解释并不满意。想要获得最好的描述,并张贴这个问题。

EN

回答 1

Stack Overflow用户

发布于 2015-08-17 17:48:46

下面是RDD接口的简单说明,取自:Spark Summit 2015

RDD接口包含

在给定k/v RDDs (“splits”)

  • List的首选locations

  • Optional分区信息的情况下,用于计算分区的
  • 分区集依赖于父RDDs的
  • 函数

现在以HadoopRDD为例

数据块分区=每个HDFS一个block

  • Dependencies =无数据块计算(

  • )=读取对应的数据块(部分)=

  • block

  • preferredLocations =none

FilteredRDD为例

无筛选器分区=与父分区相同RDD

  • Dependencies = parent

  • Compute (分区)上的“一对一”=计算父分区并筛选it

  • preferredLocations (部分)=无(ask parent)

  • Partitioner = none

因此,RDD基本上只是一种数据结构,用于存储谱系和其他信息,以便在发生故障时重新创建它,这是Matei Zaharia论文背后的主要思想。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32022359

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档