问Flink HA JobManager集群不能选举领导者
EN

Stack Overflow用户

提问于 2018-09-08 13:17:24

回答 1查看 1.5K关注 0票数 4

我试图在kubernetes上部署Apache 1.6。在工作经理效率高页面上遵循本教程。我已经从它的日志中获得了一个运行中的ZooKeep3.10集群，我可以看到它是健康的，并且没有配置为Kerberos或SASL.All，让我们每个客户端来编写和读取znodes。当我启动集群时，一切都如期而至，每个JobManager和TaskManager荚都成功地进入了运行状态，我可以从主JobManager的web中看到连接的TaskManager实例。但是，当我删除主JobManager的结束符时，另一个JobManager pod不能在集群中的任何JobManager上选择具有以下错误消息的领导者。

{
  "errors": [
    "Service temporarily unavailable due to an ongoing leader election. Please refresh."
  ]
}

即使我重新启动这个页面，也没有什么改变。它会捕捉到这条错误信息。我怀疑，问题与high-availability.storageDir选项有关。我已经对我的CloudExplorer集群进行了米诺 s3部署(用s3进行测试)。但是flink 不能向s3服务器写入任何东西。在这里，您可以从github中找到每个配置。

kubernetes

apache-flink

回答 1

Stack Overflow用户

发布于 2018-09-09 17:08:13

根据日志，TaskManager似乎无法连接到新的领导者。我想这对于web来说是一样的。日志显示它试图连接到flink-job-manager-0.flink-job-svc.flink.svc.cluster.local/10.244.3.166:44013。我不能从日志中判断flink-job-manager-1是否绑定到这个IP。但我怀疑无头服务可能会返回多个IP，而Flink选择了错误的/旧的。你能登录到flink-job-manager-1吊舱并检查一下它的IP地址吗？

我认为您应该能够通过为每个JobManager定义一个专用服务来解决这个问题，或者如果您使用荚主机名来代替。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52235740

复制

相似问题

问Flink HA JobManager集群不能选举领导者
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Flink HA JobManager集群不能选举领导者EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Flink HA JobManager集群不能选举领导者
EN