问Flink故障恢复:如果JobManager或TaskManager失败了怎么办
EN

Stack Overflow用户

提问于 2020-07-29 01:26:25

回答 1查看 936关注 0票数 1

据我理解，这个文档告诉我们，如果某个任务由于某种原因而失败，Flink可以借助检查点机制来恢复它。

现在我还有两个问题：

，如果TaskManager失败了怎么办？据我理解，任务分配给一个或多个插槽，插槽位于一个或多个TaskManagers上。在阅读了上面的文档之后，我知道Flink可以恢复一个失败的任务，但是如果一个TaskManager失败了，会发生什么呢？弗林克也能恢复吗？如果一个失败的TaskManager可以恢复，那么分配给它的任务会在恢复后自动继续运行吗？

，如果JobManager失败了怎么办？如果JobManager失败了，所有的TaskManagers也会失败吗？如果是这样的话，当我在动物园管理员的帮助下恢复JobManager时，执行所有TaskManagers，它们的任务将继续运行

回答已采纳

发布于 2020-07-29 09:35:38

在纯独立的集群中，如果任务管理器死了，那么如果您有一个备用任务管理器正在运行，它将被使用。否则，“职务管理器”将等待新的“任务管理器”神奇地出现。让这一切发生取决于你。另一方面，如果您正在使用纱线、Mesos或Kubernetes，集群管理框架将负责确保有足够的TMs。

对于“职务管理器失败”，应在独立群集中运行“备用职务管理器”，并配置“管理员”来进行领导人选举。使用still、Mesos和Kubernetes，您可以让集群框架处理重新启动作业管理器(Kubernetes)，或者根据您的喜好运行站立，但在这两种情况下，您仍然需要为作业管理器的元数据提供HA存储。

任务经理可以在作业管理器失败/恢复的情况下生存下来。工作不一定要重新开始。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63145004

复制

相似问题

问Flink故障恢复:如果JobManager或TaskManager失败了怎么办EN