文章/答案/技术大牛

发布

社区首页 >问答首页 >红移报警- HealthStatus和MaintenanceMode复合

问红移报警- HealthStatus和MaintenanceMode复合
EN

Stack Overflow用户

提问于 2021-09-29 14:44:18

回答 1查看 289关注 0票数 0

我在红移集群的HealthStatus度量上设置了一个警报，每当集群上发生任何维护事件时，都会触发警报，从而导致错误的警报触发器。

为了缓解这一问题，我尝试使用HealthStatus和MaintenanceMode指标结合了ALARM(HealthStatus) AND NOT ALARM(MaintenanceMode)来设置一个复合警报。

在下一次集群维护事件发生时，复合报警仍被触发。经过调查，我发现HealthStatus度量在进入警报之后，会延迟一分钟回到OK状态。

请在下面的数据中解释这一点：

集群维护

2003 (开始)- 00:04:00

3519 (重新启动开始)- 00:26:00

3520 (重新启动已完成)- 00:26:00

2004年(已完成)- 00:31:00

MaintenanceMode

警报- 00:05:23

好的- 00:31:23

HealthStatus

警报- 00:21:49

好的。- 00:32:49

复合报警

警报- 00:31:23

好的。- 00:32:49

可以看出，复合告警进入告警状态只是因为额外的时间段00:31:23-00:32: 49，而HealthStatus告警处于额外1分49秒的告警状态。

试图理解为什么在维护事件结束后，HealthStatus警报在额外的一分钟内不能恢复正常，以及如何减轻这一点，以避免在维护期间触发HealthStatus警报。

alarm

amazon-redshift

amazon-cloudwatch

回答 1

Stack Overflow用户

发布于 2021-09-29 15:10:33

Redshift监控系统通过每分钟向集群发出一个简单的查询来确定“健康”。这是以“挂钟”为基础的。因此，当集群再次可用时，它可能需要一分钟的时间来显示返回“健康”状态的情况。

要解决这个问题，您可以尝试将您的警报建立在连续多个“不健康”状态上。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69378613

复制

相似问题

问红移报警- HealthStatus和MaintenanceMode复合
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问红移报警- HealthStatus和MaintenanceMode复合EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问红移报警- HealthStatus和MaintenanceMode复合
EN