我们使用的是kube v1.13.10。我们在集群中有大约500个节点。最近,我开始从大师那里得到关于DiskPressure的警告。经过一些检查,我们发现原因是kube-scheduler日志。它们的大小增长到每个约20 of,并且可以有5个。而且主实例只有80 of的磁盘空间。
Logrotate配置为每小时运行一次,并延迟压缩(默认kops设置)。日志中大部分都是这样的消息
E0929 00:34:27.778731 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.778734 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.778738 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.778742 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.782052 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.782068 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.782073 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.782079 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal
E0929 00:34:27.782083 1 predicates.go:1277] Node not found, ip-10-0-0-1.ec2.internal我已经为master增加了磁盘大小。但是为什么会有这么多错误消息呢?它在1小时内产生了20‘s的日志,我认为这有点极端。我怎么才能避免呢?
发布于 2019-10-08 15:50:21
您收到的消息最近被开发人员从:"Node not found, %v"更改为"Pod %s has NodeName %q but node is not found"。新的消息指出,有一个pod被调度到一个不存在的节点。
解决这个问题的最好方法是使用kubectl delete node <node_name>删除节点,如果这样做不起作用,那么尝试使用etcdctl将其从etcd中删除。这样,它将帮助调度器将pod移动到另一个节点,这将减少错误日志及其大小。
如果有帮助,请让我知道。
https://stackoverflow.com/questions/58153037
复制相似问题