我有一个云监视报警器接收金丝雀的数据。我的金丝雀试图访问一个网站,如果网站启动并做出响应,那么数据点是0,如果服务器返回某种错误,那么数据点是1。我希望这是非常标准的金丝雀。这只金丝雀每30分钟跑一次。
我的云监视警报配置如下:

如果我的金丝雀连续3次不能到达网站,那么警报就应该响了。
不幸的是,事情不是这样的。我的警报由以下金丝雀数据触发:

这三个数据点怎么可能触发我的警报呢?
我收到的实际电子邮件如下:
你收到这封电子邮件是因为你的亚马逊CloudWatch警报“.”在美国西部(俄勒冈州)地区已经进入警报状态,因为“在最后3个数据点1.0 (09/02/21 04:23:00),1.0 (09/02/21 02:53:00),1.0 (09/02/21 02:23:00)中,阈值超过或等于阈值(1.0) ( OK ->警报转换的最少3个数据点)”。“2021年2月9日星期二04:53:30”。
我更加困惑,因为这些数据点上的时间不一致。如果我将这些时间转换为MST,我们有:
在报告的数据点上的时间范围是一个两个小时的窗口,当我明确指定我的评估期为1.5小时时。
如果我在云监视表中查看“度量”图表以寻找我的警报,那就更没有意义了:

该图表中的点如下所示:
这又一次,似乎是一个2小时的评估期。
帮助?我不明白这个。
如果我的金丝雀连续3次无法到达网站(等待30分钟的间隔检查),我如何配置我的警报以触发?
发布于 2021-02-19 17:11:05
我有两件事要回答:
每次金丝雀运行1次数据时,
由于某些原因,统计数据对我不起作用,所以我使用了count选项。这可能会有帮助。
我建议每5分钟运行一次金丝雀。因此,在30分钟内,6个数据点并为if count=4创建警报。
发布于 2021-02-09 19:17:24
按照我读取您的配置的方式,您的闹钟期望在30分钟的窗口内找到3个数据点--但是您的度量只会每30分钟更新一次,所以这种情况永远不会发生。
您需要增加时间,以便有3个或更多的指标可用于触发警报。
https://stackoverflow.com/questions/66123607
复制相似问题