首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >处理监视器警报过载和脱敏的最佳方法?

处理监视器警报过载和脱敏的最佳方法?
EN

Stack Overflow用户
提问于 2011-02-19 01:23:33
回答 1查看 266关注 0票数 0

我们正在将监控添加到我们网络上的各种服务器和进程中,目前,如果出现问题,各种监视器将向我的开发团队发送电子邮件-X分钟内网站上没有客户付款,支持某个进程的web服务没有响应,每日自动FTP到供应商失败,等等。虽然其中一些是信息性的,需要尽快解决(例如,明天或周一可以),但有些是关键的,是实际客户停机的结果,因此需要尽快恢复。

问题是,有太多的电子邮件,人们开始对它们失去敏感度,甚至开始忽略关键的邮件。即使我们有一个每周都会变化的关键人员,我仍然发现关键警报会放在那里,没有人认领,也没有回应,有时会持续几个小时。

其他人正在做些什么来更好地处理这些类型的监控和警报情况?我是否应该有一个仪表板或摘要电子邮件来提供当天的所有内容?那么关键的事情呢--群发电子邮件仍然是最好的方式吗?我很想看看其他人是怎么做的,以确保事情很快得到解决,但要确保开发人员不会不知所措。

EN

回答 1

Stack Overflow用户

发布于 2011-02-19 23:10:44

在RHQ ( http://rhq-project.org/ ),我们有抑制事件-例如,每5个警报才发送一封电子邮件,等等。

也可以使告警禁用发送,然后具有第二个所谓的恢复告警,如果出现下一个差错情况,则(如果差错情况消失)重新启用发送。

有关详细信息,请参阅http://www.rhq-project.org/display/JOPR2/Alerts

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5044457

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档