我试图在kubernetes上部署Apache 1.6。在工作经理效率高页面上遵循本教程。我已经从它的日志中获得了一个运行中的ZooKeep3.10集群,我可以看到它是健康的,并且没有配置为Kerberos或SASL.All,让我们每个客户端来编写和读取znodes。当我启动集群时,一切都如期而至,每个JobManager和TaskManager荚都成功地进入了运行状态,我可以从主JobManager的web中看到连接的TaskManager实例。但是,当我删除主JobManager的结束符时,另一个JobManager pod不能在集群中的任何JobManager上选择具有以下错误消息的领导者。
{
"errors": [
"Service temporarily unavailable due to an ongoing leader election. Please refresh."
]
}即使我重新启动这个页面,也没有什么改变。它会捕捉到这条错误信息。我怀疑,问题与high-availability.storageDir选项有关。我已经对我的CloudExplorer集群进行了米诺 s3部署(用s3进行测试)。但是flink 不能向s3服务器写入任何东西。在这里,您可以从github中找到每个配置。
发布于 2018-09-09 17:08:13
根据日志,TaskManager似乎无法连接到新的领导者。我想这对于web来说是一样的。日志显示它试图连接到flink-job-manager-0.flink-job-svc.flink.svc.cluster.local/10.244.3.166:44013。我不能从日志中判断flink-job-manager-1是否绑定到这个IP。但我怀疑无头服务可能会返回多个IP,而Flink选择了错误的/旧的。你能登录到flink-job-manager-1吊舱并检查一下它的IP地址吗?
我认为您应该能够通过为每个JobManager定义一个专用服务来解决这个问题,或者如果您使用荚主机名来代替。
https://stackoverflow.com/questions/52235740
复制相似问题