首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >发生多起事件后触发PagerDuty警报

发生多起事件后触发PagerDuty警报
EN

DevOps用户
提问于 2017-10-02 14:41:31
回答 2查看 287关注 0票数 5

在集成过程中发生了一定数量的事件后,是否可能只触发警报?

例如,如果我的应用程序报告了某种类型的非关键故障,那么在排除故障时是值得的,但可能不会太糟糕到半夜叫醒某人。

但是,如果应用程序一次又一次地报告相同的故障,这是一个更大问题的症状,应该有人尽快查看。

有什么想法吗?

EN

回答 2

DevOps用户

发布于 2017-10-03 18:12:07

构建这个系统的最简单的方法是拥有某种基于度量的报警系统,比如Prometheus、datadog等等。这些系统允许您拥有一个计数器,它可以使您在一个漂亮的图表上看到在给定时间内发生了多少次事件。大多数度量系统将与PagerDuty很好地结合起来,以获得警报。拥有这些度量系统的任何一个功能都将为您的系统提供一个历史性的基线,而这通常会非常方便地计算出我们的哪里出了问题以及何时出错。

门槛很可能应该是一定时期内发生的事件数量。如果你只是选择一个任意的数字,比如说100,你最终会达到这个极限。如果你在一小时内看到10件事,那可能对你不好。

其中最困难的部分是,我不认为PagerDuty可以轻松地访问事件数量的度量标准。您可以在他们的UI中查看漂亮的图形,但是没有一种简单的方法可以将其输入到您的度量系统中。您需要在创建事件的其他地方添加一些代码,并让它们增加此计数器。

票数 2
EN

DevOps用户

发布于 2017-10-13 19:16:17

我们处理这个问题的方法是先通过Sensu运行我们的警报。您可以配置Sensu检查以要求多次失败才能发出警报,然后将检查的通知配置为发送到PagerDuty。这样,当PagerDuty听到它(和您的页面)时,它已经通过了"N行失败“标准。

如果您需要检查的不是一行的故障数,而是一个时间范围内的N个故障,那么这是一个很好的用例,可以添加elasticsearch或石墨或类似的元素。每当出现故障时,记录一个错误或增加一个度量,然后您的检查就可以简单地查看时间范围,并查看聚合是否超过了限制。

票数 0
EN
页面原文内容由DevOps提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://devops.stackexchange.com/questions/2215

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档