问Datadog警报查询以从集群中获取失败的kubernet cron作业
EN

Stack Overflow用户

提问于 2022-07-28 10:55:13

回答 1查看 353关注 0票数 0

我正试图从Datadog那里得到一个警告，但当kubernet的工作失败时。我有一个查询，当它的崩溃循环发生时，我会得到pod失败通知，但不确定如何更新cron作业失败的查询。

max(last_10m) :avg:kubernets_state.contaier.status_report.count.waiting{reason:crashloopbackoff !pod_phase:succeeded} by {kube_cluster_name, kube_namespace,pod_name,kubernetes.io/clusster/cluster_name}.rollup(avg, 120) >=1

kubernetes

datadog

回答 1

Stack Overflow用户

发布于 2022-07-28 11:31:37

您能使用kubernetes_state.job.completion.failed度量吗？

例如：

max(last_5m):max:kubernetes_state.job.completion.failed{*} by {kube_cluster_name,kube_namespace,kube_cronjob} >= 1

请注意，有两个不同的标记，kube_cronjob，它是cron作业的名称，kube_job是作业实例的名称。

另见医生们。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/73151679

复制

相似问题

问Datadog警报查询以从集群中获取失败的kubernet cron作业
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Datadog警报查询以从集群中获取失败的kubernet cron作业EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Datadog警报查询以从集群中获取失败的kubernet cron作业
EN