首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Flink故障恢复:如果JobManager或TaskManager失败了怎么办

Flink故障恢复:如果JobManager或TaskManager失败了怎么办
EN

Stack Overflow用户
提问于 2020-07-29 01:26:25
回答 1查看 936关注 0票数 1

我正在阅读关于任务失败恢复的Flink官方文档:https://ci.apache.org/projects/flink/flink-docs-stable/dev/task_failure_recovery.html

据我理解,这个文档告诉我们,如果某个任务由于某种原因而失败,Flink可以借助检查点机制来恢复它。

现在我还有两个问题:

  1. ,如果TaskManager失败了怎么办?据我理解,任务分配给一个或多个插槽,插槽位于一个或多个TaskManagers上。在阅读了上面的文档之后,我知道Flink可以恢复一个失败的任务,但是如果一个TaskManager失败了,会发生什么呢?弗林克也能恢复吗?如果一个失败的TaskManager可以恢复,那么分配给它的任务会在恢复后自动继续运行吗?

  1. ,如果JobManager失败了怎么办?如果JobManager失败了,所有的TaskManagers也会失败吗?如果是这样的话,当我在动物园管理员的帮助下恢复JobManager时,执行所有TaskManagers,它们的任务将继续运行
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-07-29 09:35:38

在纯独立的集群中,如果任务管理器死了,那么如果您有一个备用任务管理器正在运行,它将被使用。否则,“职务管理器”将等待新的“任务管理器”神奇地出现。让这一切发生取决于你。另一方面,如果您正在使用纱线、Mesos或Kubernetes,集群管理框架将负责确保有足够的TMs。

对于“职务管理器失败”,应在独立群集中运行“备用职务管理器”,并配置“管理员”来进行领导人选举。使用still、Mesos和Kubernetes,您可以让集群框架处理重新启动作业管理器(Kubernetes),或者根据您的喜好运行站立,但在这两种情况下,您仍然需要为作业管理器的元数据提供HA存储。

任务经理可以在作业管理器失败/恢复的情况下生存下来。工作不一定要重新开始。

https://ci.apache.org/projects/flink/flink-docs-stable/ops/jobmanager_high_availability.html

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63145004

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档