首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >红移报警- HealthStatus和MaintenanceMode复合

红移报警- HealthStatus和MaintenanceMode复合
EN

Stack Overflow用户
提问于 2021-09-29 14:44:18
回答 1查看 289关注 0票数 0

我在红移集群的HealthStatus度量上设置了一个警报,每当集群上发生任何维护事件时,都会触发警报,从而导致错误的警报触发器。

为了缓解这一问题,我尝试使用HealthStatus和MaintenanceMode指标结合了ALARM(HealthStatus) AND NOT ALARM(MaintenanceMode)来设置一个复合警报。

在下一次集群维护事件发生时,复合报警仍被触发。经过调查,我发现HealthStatus度量在进入警报之后,会延迟一分钟回到OK状态。

请在下面的数据中解释这一点:

集群维护

2003 (开始)- 00:04:00

3519 (重新启动开始)- 00:26:00

3520 (重新启动已完成)- 00:26:00

2004年(已完成)- 00:31:00

MaintenanceMode

警报- 00:05:23

好的- 00:31:23

HealthStatus

警报- 00:21:49

好的。- 00:32:49

复合报警

警报- 00:31:23

好的。- 00:32:49

可以看出,复合告警进入告警状态只是因为额外的时间段00:31:23-00:32: 49,而HealthStatus告警处于额外1分49秒的告警状态。

试图理解为什么在维护事件结束后,HealthStatus警报在额外的一分钟内不能恢复正常,以及如何减轻这一点,以避免在维护期间触发HealthStatus警报。

EN

回答 1

Stack Overflow用户

发布于 2021-09-29 15:10:33

Redshift监控系统通过每分钟向集群发出一个简单的查询来确定“健康”。这是以“挂钟”为基础的。因此,当集群再次可用时,它可能需要一分钟的时间来显示返回“健康”状态的情况。

要解决这个问题,您可以尝试将您的警报建立在连续多个“不健康”状态上。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69378613

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档