首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏涂小刚的专栏

    Spark Scheduler 内部原理剖析

    Job由saveAsTextFile触发,该Job由RDD-3和saveAsTextFile方法组成,根据RDD之间的依赖关系从RDD-3开始回溯搜索,直到没有依赖的RDD-0,在回溯搜索过程中,RDD -3依赖RDD-2,并且是宽依赖,所以在RDD-2和RDD-3之间划分Stage,RDD-3被划到最后一个Stage,即ResultStage中,RDD-2依赖RDD-1,RDD-1依赖RDD-0,这些依赖都是窄依赖

    4.3K42发布于 2017-04-26
  • 来自专栏不温卜火

    Spark内核详解 (5) | Spark的任务调度机制

    说明: Job由saveAsTextFile触发,该Job由RDD-3和saveAsTextFile方法组成,根据RDD之间的依赖关系从RDD-3开始回溯搜索,直到没有依赖的RDD-0, 在回溯搜索过程中 ,RDD-3依赖RDD-2,并且是宽依赖,所以在RDD-2和RDD-3之间划分Stage,RDD-3被划到最后一个Stage,即ResultStage中 RDD-2依赖RDD-1,RDD-1依赖RDD-

    4.1K10发布于 2020-10-28
  • 来自专栏涂小刚的专栏

    【Spark教程】核心概念RDD

    将一行句子切分为多个独立的词,得到RDD-1,再通过map操作将每个词映射为key-value形式,其中key为词本身,value为初始计数值1,得到RDD-2,将RDD-2中的所有记录归并,统计每个词的计数,得到RDD

    3.7K00发布于 2017-04-11
  • 来自专栏Albert陈凯

    2.0Spark编程模型

    RDD-3含有两个分区P5和P6,存储在node4节点上。

    1.2K80发布于 2018-04-08
  • 来自专栏DevOps

    Spark Core 整体介绍

    此处只有saveAsTextFile为行动算子,该 Job 由 RDD-3 和 saveAsTextFile方法组成,根据依赖关系回溯,知道回溯至没有依赖的RDD-0。 回溯过程中,RDD-2和RDD-3存在reduceByKey的shuffle,会划分stage,由于RDD-3在最后一个stage,即划为ResultStage,RDD-2,RDD-1,RDD-0,这些依赖之间的转换算子

    1.1K10编辑于 2024-03-29
领券