我遇到了控制器管理器和调度器没有响应的问题,这与我发现的github问题无关(rancher#11496,azure#173,…)
两天前,在我们的3节点HA集群中的一个节点上,内存溢出了一个POD。在那个农场的webapp无法访问之后,我们找到了受损的吊舱,并在kubectl上将其放大到0。但这花了一些时间,弄清楚了所有的事情。
从那时起,牧场主的webapp运行正常,但是有来自控制器管理器和调度程序的连续警报无法工作。警报不包含,有时它们都在工作,有时它们的健康检查urls拒绝连接。
NAME STATUS MESSAGE ERROR
controller-manager Unhealthy Get http://127.0.0.1:10252/healthz: dial tcp 127.0.0.1:10252: connect: connection refused
scheduler Healthy ok
etcd-0 Healthy {"health": "true"}
etcd-2 Healthy {"health": "true"}
etcd-1 Healthy {"health": "true"}在受损节点上重新启动控制器管理器和调度程序尚未有效。甚至重新加载所有的组件
docker restart kube-apiserver kubelet kube-controller-manager kube-scheduler kube-proxy也没有效果。
有人能帮我找出解决这个问题的步骤吗?。
节点托管在DigitalOcean上,服务器上有4核和8GB内存(Ubuntu16,Docker17.03.3)。
提前谢谢!
发布于 2019-04-26 16:15:24
首先要看的是你的日志..。您能导出下列日志并附加它们吗?
/var/log/kube-controller-manager.log控制器管理器是一个端点,因此您需要执行一个"get终结点“。您能运行以下操作吗?
kubectl -n kube-system get endpoints kube-controller-manager和
kubectl -n kube-system describe endpoints kube-controller-manager和
kubectl -n kube-system get endpoints kube-controller-manager -o jsonpath='{.metadata.annotations.control-plane\.alpha\.kubernetes\.io/leader}'发布于 2021-07-02 20:15:46
请在主节点中运行此命令。
sed -i 's|- --port=0|#- --port=0|' /etc/kubernetes/manifests/kube-scheduler.yaml
sed -i 's|- --port=0|#- --port=0|' /etc/kubernetes/manifests/kube-controller-manager.yaml
systemctl restart kubelet在重新启动kubelet之后,问题将得到解决。
https://stackoverflow.com/questions/54827814
复制相似问题