我正试图从Datadog那里得到一个警告,但当kubernet的工作失败时。我有一个查询,当它的崩溃循环发生时,我会得到pod失败通知,但不确定如何更新cron作业失败的查询。
max(last_10m) :avg:kubernets_state.contaier.status_report.count.waiting{reason:crashloopbackoff !pod_phase:succeeded} by {kube_cluster_name, kube_namespace,pod_name,kubernetes.io/clusster/cluster_name}.rollup(avg, 120) >=1发布于 2022-07-28 11:31:37
您能使用kubernetes_state.job.completion.failed度量吗?
例如:
max(last_5m):max:kubernetes_state.job.completion.failed{*} by {kube_cluster_name,kube_namespace,kube_cronjob} >= 1请注意,有两个不同的标记,kube_cronjob,它是cron作业的名称,kube_job是作业实例的名称。
另见医生们。
https://stackoverflow.com/questions/73151679
复制相似问题