我发现Apache Spark是为了教学目的,我对如何管理任务调度有点困惑。我发现Spark有3个调度选项: Spark Scheduler,YARN Scheduler和MESOS。但是我也读到Spark Core管理任务的调度。所以我想我没有明白这一点:
如果Spark Core管理任务的调度,为什么我们还需要Spark Core下面的调度器?
那么,这些任务并行执行意味着什么呢?这是指在多个工作者上并行,还是在同一个工作者上并行?
发布于 2020-12-20 08:03:05
在spark中有两个级别的资源管理。首先是实例上的执行器的分配。yarn/k8/mesos/local都是这样的例子。每个exexcutor都能够一次处理一定数量的任务。在驱动程序内部是一个系统,用于获取执行图,将它们分解为任务集,然后将这些任务分配给执行器。
发布于 2021-04-29 23:13:18
也许您混淆了资源管理器和作业调度程序。对于Spark,它可以独立运行,换句话说,它具有资源(CPU\内存)管理和作业(数据管道\作业流)管理。
https://stackoverflow.com/questions/65371216
复制相似问题