我正在运行Sparkling water的36火花执行者。由于亚恩的日程安排,一些执行者会抢先复出。总的来说,在大多数情况下,有36执行者,只是不总是这样。
到目前为止,我的经验是,一旦1执行器失败,整个H2o实例就会停止,即使丢失的执行器稍后会恢复生命。我想知道这是否是Sparkling-water的行为方式?还是需要开启一些先发制人的能力?
有人知道这件事吗?
发布于 2017-11-09 12:16:02
摘要
你看到的是闪闪发光的水的行为。
细节..。
纱线上的起泡水可以通过两种不同的方式运行:
H2O节点不支持弹性云形成行为。也就是说,一旦形成H2O集群,新节点可能不会加入集群(它们被拒绝),现有节点可能不会离开集群(集群变得不可用)。
因此,对于正在运行H2O节点的队列,必须禁用纱线抢占。默认情况下,这意味着整个星火作业必须在纱线抢占禁用的情况下运行(而火花dynamicAllocation禁用)。对于外部H2O集群方式,这意味着H2O集群必须在禁用抢占的纱线队列中运行。
可能有帮助的其他信息:
https://stackoverflow.com/questions/47201028
复制相似问题