我有一个AWS CloudWatch报警器,配置如下:
Type
Metric alarm
State
OK
Threshold
METRIC_NAME <= 0 for 1 datapoints within 1 day
Last change
2022-04-14 23:30:54
Actions
Actions enabled
Metric name
METRIC_NAME
Statistic
Average
Period
1 day
Datapoints to alarm
1 out of 1
Missing data treatment
Treat missing data as bad (breaching threshold)
Percentiles with low samples
evaluate在过去的几天里,我们一直缺少这个度量的数据,因此产生了一个如下所示的图表:
我的理解是,鉴于上述配置,以及过去3天丢失的数据,这个警报应该已经触发。然而,它并没有。基于AWS:https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html,一个为期1天的告警,1/1的数据点报警,以及缺少breaching的数据处理,应该将警报状态从OK ->告警中更改。我是不是漏掉了一个关键部件?谢谢!
发布于 2022-05-02 23:09:31
重新阅读他们的文档:https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/AlarmThatSendsEmail.html,特别是当数据丢失时,如何评估警报状态(),我相信我已经解决了这个问题。
CloudWatch有一个不可配置的“评估范围”,他们在决定何时对丢失的数据进行报警时会使用这个范围。实际上大约需要3英镑?或4?连续期间丢失的数据在报警前将过渡到告警状态。鉴于我们的周期是1天,这意味着我们将不会被通知丢失的数据,直到第三天或第四天后,这一异常,这是没有解释的警报配置。
为了解决此问题,我们将警报更改为使用度量数学填充函数,该函数用指定的值填充期间中丢失的数据点。在我的例子中,我用违约值0填充了我的度量中丢失的数据点。
示例,m1是我们最初用警报器跟踪的指标。
https://stackoverflow.com/questions/72091997
复制相似问题