我在红移集群的HealthStatus度量上设置了一个警报,每当集群上发生任何维护事件时,都会触发警报,从而导致错误的警报触发器。
为了缓解这一问题,我尝试使用HealthStatus和MaintenanceMode指标结合了ALARM(HealthStatus) AND NOT ALARM(MaintenanceMode)来设置一个复合警报。
在下一次集群维护事件发生时,复合报警仍被触发。经过调查,我发现HealthStatus度量在进入警报之后,会延迟一分钟回到OK状态。
请在下面的数据中解释这一点:
集群维护
2003 (开始)- 00:04:00
3519 (重新启动开始)- 00:26:00
3520 (重新启动已完成)- 00:26:00
2004年(已完成)- 00:31:00
MaintenanceMode
警报- 00:05:23
好的- 00:31:23
HealthStatus
警报- 00:21:49
好的。- 00:32:49
复合报警
警报- 00:31:23
好的。- 00:32:49
可以看出,复合告警进入告警状态只是因为额外的时间段00:31:23-00:32: 49,而HealthStatus告警处于额外1分49秒的告警状态。
试图理解为什么在维护事件结束后,HealthStatus警报在额外的一分钟内不能恢复正常,以及如何减轻这一点,以避免在维护期间触发HealthStatus警报。
发布于 2021-09-29 15:10:33
Redshift监控系统通过每分钟向集群发出一个简单的查询来确定“健康”。这是以“挂钟”为基础的。因此,当集群再次可用时,它可能需要一分钟的时间来显示返回“健康”状态的情况。
要解决这个问题,您可以尝试将您的警报建立在连续多个“不健康”状态上。
https://stackoverflow.com/questions/69378613
复制相似问题