首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >记录一次停运以进行尸检

记录一次停运以进行尸检
EN

Server Fault用户
提问于 2009-06-20 18:48:15
回答 4查看 5.4K关注 0票数 14

在过去的一周里,我们发生了相当严重的故障,影响了几项服务,使我们无法与客户一起使用SLA。现在一切都解决了,我正在进行一次尸检。

从这次审查中,我想提出一份内部文件,说明停运、其影响、我们的反应和决议。我想为将来的重用提出一个相当标准的表单。我已经在下面列出了我的想法,但是还应该包括哪些其他项目呢?如果这是一个与安全有关的事件,你会补充什么?

  • 事件的执行级摘要。
  • 受影响的服务
  • 对我们的用户和SLA的影响是什么?是否存在以美元计算的成本、错过的交易、失去的客户等?
  • 如果有差异,每个受影响服务的停机时间
  • 原因包括主因和次要原因
  • 分辨率
  • 事件通知的时间表,与外部供应商的联系,客户通知,响应等。
  • 我们的反应有问题吗?我们对停电的反应不是按计划进行的吗?通知正确的人吗?供应商是否履行了他们的合同义务?
  • 采取预防措施,我们如何防止这一中断再次发生或减少其影响?
  • 检测方法
  • 在今后的停运响应中要做的更改

试着把文章压缩到一个项目和解释,这篇文章可以更新与顶部投票的答案。

EN

回答 4

Server Fault用户

发布于 2009-06-21 03:22:57

虽然可以在要采取的预防措施中讨论这个问题,但我建议您使用一个检测方法部分来记录真正的症状是什么,如果再次发生问题,如何更快地发现问题,最好是使用自动化。

票数 6
EN

Server Fault用户

发布于 2009-06-20 19:36:29

看起来不错。我只想补充以下几点:

影响/后果:停电的后果是什么--谁受到影响,哪些SLA被违反(如果有的话),是否有任何撞击效应?

票数 2
EN

Server Fault用户

发布于 2009-06-20 20:54:27

受影响的服务和中断持续时间只告诉您停机有多严重。您还想知道对业务的影响是什么。

影响:这对用户有什么影响,人们是如何看待的?这花了我们多少钱(因为少了SLA,丢失了订单等)?

票数 1
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/29188

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档