我使用helm (在“监视”命名空间中)将堆栈15.3.1安装到GKE集群中。我使用values.yaml打开了一些组件上的插件,并将SMTP信息和接收细节添加到警报管理器中。在大多数情况下,一切似乎都很好,除了普罗米修斯发射了许多警报,我没有收到任何警报电子邮件。
一个射击警报是:
PrometheusNotConnectedToAlertmanagersPrometheus monitoring/prometheus-kube-prometheus-stak-prometheus-0没有连接到任何警报管理器。
另一个是:
PrometheusOperatorSyncFailed监视命名空间中的控制器警报管理器无法协调1个对象。
我还尝试打开一个入口到警报管理器,并将alerts.mydomiain.com指向它,但是当我尝试获取任何请求(比如alerts.mydomain.com/v2/status)时,我总是会得到一个502服务器错误。
我该怎么做才能让我的警报器经理工作?
下面是kubectl get pods,svc,daemonset,deployment,statefulset -n monitoring的输出:
NAME READY STATUS RESTARTS AGE
pod/kube-prometheus-stack-grafana-58f7fcb497-hm72h 2/2 Running 0 30h
pod/kube-prometheus-stack-kube-state-metrics-6d588499f5-d957b 1/1 Running 0 2d3h
pod/kube-prometheus-stack-operator-54f89674c9-k8ml7 1/1 Running 0 2d3h
pod/kube-prometheus-stack-prometheus-node-exporter-22vpd 1/1 Running 0 3h57m
pod/kube-prometheus-stack-prometheus-node-exporter-2qsl9 1/1 Running 0 3h57m
pod/kube-prometheus-stack-prometheus-node-exporter-4d27n 1/1 Running 0 7h36m
pod/kube-prometheus-stack-prometheus-node-exporter-7rlnk 1/1 Running 0 4h47m
pod/kube-prometheus-stack-prometheus-node-exporter-7xlf4 1/1 Running 0 4h51m
pod/kube-prometheus-stack-prometheus-node-exporter-9mfnt 1/1 Running 0 3h57m
pod/kube-prometheus-stack-prometheus-node-exporter-9zblf 1/1 Running 0 2d3h
pod/kube-prometheus-stack-prometheus-node-exporter-bdcjj 1/1 Running 0 2d3h
pod/kube-prometheus-stack-prometheus-node-exporter-bs54w 1/1 Running 0 4h47m
pod/kube-prometheus-stack-prometheus-node-exporter-fp95h 1/1 Running 0 2d3h
pod/kube-prometheus-stack-prometheus-node-exporter-h4zhw 1/1 Running 0 2d3h
pod/kube-prometheus-stack-prometheus-node-exporter-pz8js 1/1 Running 0 3h58m
pod/kube-prometheus-stack-prometheus-node-exporter-rrrhk 1/1 Running 0 27h
pod/kube-prometheus-stack-prometheus-node-exporter-rszlt 1/1 Running 0 2d3h
pod/kube-prometheus-stack-prometheus-node-exporter-s62wq 1/1 Running 0 4h47m
pod/kube-prometheus-stack-prometheus-node-exporter-w9dmb 1/1 Running 0 5h32m
pod/kube-prometheus-stack-prometheus-node-exporter-xqmxk 1/1 Running 0 4h51m
pod/prometheus-kube-prometheus-stack-prometheus-0 2/2 Running 1 30h
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
service/kube-prometheus-stack-alertmanager NodePort 10.125.4.161 <none> 9093:30903/TCP 2d3h
service/kube-prometheus-stack-grafana NodePort 10.125.7.177 <none> 80:32444/TCP 2d3h
service/kube-prometheus-stack-kube-state-metrics ClusterIP 10.125.2.56 <none> 8080/TCP 2d3h
service/kube-prometheus-stack-operator ClusterIP 10.125.4.171 <none> 443/TCP 2d3h
service/kube-prometheus-stack-prometheus NodePort 10.125.13.11 <none> 9090:30090/TCP 2d3h
service/kube-prometheus-stack-prometheus-node-exporter ClusterIP 10.125.10.231 <none> 9100/TCP 2d3h
service/prometheus-operated ClusterIP None <none> 9090/TCP 2d3h
NAME DESIRED CURRENT READY UP-TO-DATE AVAILABLE NODE SELECTOR AGE
daemonset.apps/kube-prometheus-stack-prometheus-node-exporter 17 17 17 17 17 <none> 2d3h
NAME READY UP-TO-DATE AVAILABLE AGE
deployment.apps/kube-prometheus-stack-grafana 1/1 1 1 2d3h
deployment.apps/kube-prometheus-stack-kube-state-metrics 1/1 1 1 2d3h
deployment.apps/kube-prometheus-stack-operator 1/1 1 1 2d3h
NAME READY AGE
statefulset.apps/prometheus-kube-prometheus-stack-prometheus 1/1 42h发布于 2021-05-06 13:44:05
我意识到,即使服务在那里,机关部经理pod也不见了。我发现我可以通过卸载prometheus堆栈,然后用默认值重新安装它,然后用我自己的值来升级它。
现在,PrometheusNotConnectedToAlertmanagers警报已经停止发射,但我仍然没有收到电子邮件。现在,我可以通过入口访问警报管理器,并看到我在Helm values文件中为它设置的配置没有传递到警报管理器--它仍然具有默认配置。
我发现我有此处描述的问题和检查库贝-普罗米修斯堆栈操作舱的日志,确认了它。我需要在我的警报管理器接收器中有一个“空”接收器(我已经删除了)。
发布于 2021-10-19 15:26:25
如果这对来自Google的任何人有帮助的话,我在pods中看到了错误(我不记得是Prometheus还是Prometheus-操作符)在SMTP主机中缺少端口,然后意识到在设置Alert Manager时我忘记了在SMTP配置中指定端口。我正在使用OpenShift 4.7 (如果这很重要的话)
https://serverfault.com/questions/1062725
复制相似问题