首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >H20中的节点是否可以抢占?

H20中的节点是否可以抢占?
EN

Stack Overflow用户
提问于 2017-11-09 11:45:26
回答 1查看 162关注 0票数 0

我正在运行Sparkling water36火花执行者。由于亚恩的日程安排,一些执行者会抢先复出。总的来说,在大多数情况下,有36执行者,只是不总是这样。

到目前为止,我的经验是,一旦1执行器失败,整个H2o实例就会停止,即使丢失的执行器稍后会恢复生命。我想知道这是否是Sparkling-water的行为方式?还是需要开启一些先发制人的能力?

有人知道这件事吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-11-09 12:16:02

摘要

你看到的是闪闪发光的水的行为。

细节..。

纱线上的起泡水可以通过两种不同的方式运行:

  • 默认的方式是,将H2O节点嵌入到火花执行器中,并且有一个( Spark )纱线作业,
  • 外部H2O集群方式,其中星盘集群和H2O集群是分开的纱线作业(在这种模式下运行需要更多的设置;如果您是以这种方式运行的,您就会知道)

H2O节点不支持弹性云形成行为。也就是说,一旦形成H2O集群,新节点可能不会加入集群(它们被拒绝),现有节点可能不会离开集群(集群变得不可用)。

因此,对于正在运行H2O节点的队列,必须禁用纱线抢占。默认情况下,这意味着整个星火作业必须在纱线抢占禁用的情况下运行(而火花dynamicAllocation禁用)。对于外部H2O集群方式,这意味着H2O集群必须在禁用抢占的纱线队列中运行。

可能有帮助的其他信息:

  • 如果你刚刚开始研究新的问题
  • 更确切地说,如果您尝试使用36个每个都有1GB执行程序内存的执行程序运行,这是一个非常糟糕的配置;从4个执行器x10GB开始,
  • 一般来说,您根本不想用小于5GB的执行器启动闪闪发光的水,更多的内存更好,
  • 如果以默认方式运行,不要将执行器内核的数量设置得太小;机器学习需要大量的CPU。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47201028

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档