我们正在k8s集群上运行星星之火,并借助火花算子。对于监视,我们使用的是普罗米修斯。
我们希望配置一个警报,以便每当任何与触发作业相关的吊舱转换到失败的状态时,我们都应该得到一个警告。此警报规则应在最后5分钟内检查此类失败的吊舱。
我们试图利用kube状态度量来实现这一点,但是我们无法基于时间获得度量。在任何给定的时间点,度量kube_pod_status_phase{namespace="spark-operator",phase=" failed "}给出了所有处于失败状态的豆荚的列表。
任何关于这方面的建议或指导都是非常欢迎的。
发布于 2021-04-09 10:27:27
sum_over_time (kube_pod_status_phase{namespace="spark-operator",phase="Failed"}[5m:1m]) > 0
https://stackoverflow.com/questions/62878846
相似问题