我在Google GKE的Kubernetes上使用Prometheus和Grafana应用程序已经有好几个月了。例如,在Grafana上,我曾经监控过container_cpu_usage_seconds_total。
但是自从我将GKE的节点从1.15升级到1.16之后,我丢失了container_*信息。
为了测试它,我使用1.15版本创建了一个新集群。我从Google Marketeplace安装了Prometheus,并一步一步地升级了GKE,直到问题出现。同样,container_*监控在版本1.16中停止。
我是唯一一个有这个问题的人吗?有人找到解决方案了吗?
感谢您的帮助:)
Valentin
发布于 2020-09-23 17:42:03
我发现了哪里出了问题。使用docker或kubernetes,node-exporter不会发送pods指标( container_* )。必须安装Cadvisor (在Google Marketeplace中,Cadvisor安装在node-exporter镜像中)从Kubernetes 1.16开始,Cadvisor的配置是错误的。您应该编辑配置以解决此问题
所有信息都在这篇文章中:Prometheus not receiving metrics from cadvisor in GKE
https://stackoverflow.com/questions/63741959
复制相似问题