DevOps和SRE的基本原则是:故障是正常的,设定完善的可靠性目标是错误的。但有时IT高管和商业领袖会回击这一想法。他们认为企业需要百分之百的可靠性。说服他们改变想法的好方法是什么?
发布于 2019-04-02 22:47:19
我想知道,在这个论坛上,是否有人有新的论据,他们曾亲自听过或尝试说服行政人员,认为有需要把服务水平的目标订在100%以下,所以才提出原来的问题。
以下是我在过去见过或采取的一些方法来解决这个问题。站点可靠性工作簿有一些建议这里,其中包括:
除上述内容外,我还从各种面对面的讨论中收集了以下讨论要点,这些讨论可能有助于说服组织领导人:
我们还必须承认,对于某些方面的可靠性,如数据丢失的预防,一些受监管的行业要求的可靠性水平如此之高,而且持续时间很长,以至于它们与100%的可靠性几乎无法区分,比如99.999999%。对于其他方面,比如可用性和延迟,三到四种可靠性通常都是足够的,上面的一些论点可能有助于说服IT领导相信这是正确的。
发布于 2019-10-27 01:22:34
如果您的公司/经理/etc要求100%的可靠性,请让他们只列出一个人工设计的系统,它在任何一段不平凡的时间内都达到了这个目标。我什么都不知道.我看了很多。起搏器甚至没有100%的可靠性。
移除人类。你也很难找到任何能达到这个目标的东西。
一个完美的目标是非常适得其反的,最终会使你的创新速度逐渐降低到0。
下面是是一个更全面的解释.
如果您减少对减少错误的关注,而更多地关注于快速检测和减少错误,您将向您的客户提供更高的可靠性。爆炸半径越小,你就能跑得越快。
罪过不是在于失败,而是在于没有注意到。
发布于 2019-03-25 19:34:03
为什么你认为百分之百的可靠性不是一个好主意?你能用数字、事实和逻辑解释来支持你的信念吗?
所需的硬件是否太贵?开发时间太长了?也许你可以证明,一个部件链成功的概率是单个部件的乘积,其中一些部分不在你的控制范围之内?
如果你能支持你的主张,然后向你的经理提出,如果不是,你的经理可能是对的。
https://devops.stackexchange.com/questions/6691
复制相似问题