在过去的一周里,我们发生了相当严重的故障,影响了几项服务,使我们无法与客户一起使用SLA。现在一切都解决了,我正在进行一次尸检。
从这次审查中,我想提出一份内部文件,说明停运、其影响、我们的反应和决议。我想为将来的重用提出一个相当标准的表单。我已经在下面列出了我的想法,但是还应该包括哪些其他项目呢?如果这是一个与安全有关的事件,你会补充什么?
试着把文章压缩到一个项目和解释,这篇文章可以更新与顶部投票的答案。
发布于 2009-06-21 03:22:57
虽然可以在要采取的预防措施中讨论这个问题,但我建议您使用一个检测方法部分来记录真正的症状是什么,如果再次发生问题,如何更快地发现问题,最好是使用自动化。
发布于 2009-06-20 19:36:29
看起来不错。我只想补充以下几点:
影响/后果:停电的后果是什么--谁受到影响,哪些SLA被违反(如果有的话),是否有任何撞击效应?
发布于 2009-06-20 20:54:27
受影响的服务和中断持续时间只告诉您停机有多严重。您还想知道对业务的影响是什么。
影响:这对用户有什么影响,人们是如何看待的?这花了我们多少钱(因为少了SLA,丢失了订单等)?
https://serverfault.com/questions/29188
复制相似问题