我有一个databricks集群设置,自动扩展到12个节点。我经常观察到databricks从6到8,然后是8到11,然后是11到14节点。
所以我的查询- 1。为什么它要一次添加2-3个节点。为什么会触发自动缩放,因为我看到集群上没有多少作业是活动的或繁重的处理。CPU使用率很低。3.自动缩放时,为什么会把笔记本留在等待状态?
谢谢
当不需要数据块时,我试图研究为什么数据块是自动缩放集群的原因。
发布于 2019-07-22 13:13:18
创建群集时,可以为群集提供固定数量的工作人员,也可以为群集提供最小和最大的工作人员数。
当您提供固定大小的群集时,Databricks确保您的群集有指定数量的工作人员。当您为员工数量提供范围时,Databricks将选择运行作业所需的适当数量的员工。这被称为自动标号。
使用自动标度,Databricks会动态地重新分配员工,以考虑到工作的特点。管道的某些部分可能比其他部分在计算上要求更高,而且Databricks会在工作的这些阶段自动添加额外的工作人员(并在不再需要时移除它们)。
自动标度使实现高集群利用率变得更容易,因为您不需要提供集群来匹配工作负载。这尤其适用于需求随时间变化的工作负载(比如在一天中探索数据集),但也可以应用于一次较短的工作负载,其配置需求未知。因此,自动标度提供了的两个优点:
Databricks提供了两种类型的集群节点自动标度:标准和优化。
自动标度的行为
自动标度的行为是不同的,这取决于它是优化的还是标准的,以及是应用于交互式集群还是应用于作业集群。
优化
标准
https://stackoverflow.com/questions/57145964
复制相似问题