我正在阅读关于任务失败恢复的Flink官方文档:https://ci.apache.org/projects/flink/flink-docs-stable/dev/task_failure_recovery.html
据我理解,这个文档告诉我们,如果某个任务由于某种原因而失败,Flink可以借助检查点机制来恢复它。
现在我还有两个问题:
发布于 2020-07-29 09:35:38
在纯独立的集群中,如果任务管理器死了,那么如果您有一个备用任务管理器正在运行,它将被使用。否则,“职务管理器”将等待新的“任务管理器”神奇地出现。让这一切发生取决于你。另一方面,如果您正在使用纱线、Mesos或Kubernetes,集群管理框架将负责确保有足够的TMs。
对于“职务管理器失败”,应在独立群集中运行“备用职务管理器”,并配置“管理员”来进行领导人选举。使用still、Mesos和Kubernetes,您可以让集群框架处理重新启动作业管理器(Kubernetes),或者根据您的喜好运行站立,但在这两种情况下,您仍然需要为作业管理器的元数据提供HA存储。
任务经理可以在作业管理器失败/恢复的情况下生存下来。工作不一定要重新开始。
https://ci.apache.org/projects/flink/flink-docs-stable/ops/jobmanager_high_availability.html。
https://stackoverflow.com/questions/63145004
复制相似问题