昨天,位于HE.net的Linode网络遭遇了一次大停电--据推测,he.net的发电机出现了“八分之一”故障,这显然是以某种方式导致整个Linode Fremont云下降了五个小时(2015-05-29T18:30/23:30 PT)。有一些报道说,网络核心被认为是没有电源的部分,然而,一旦恢复,似乎所有的服务器都可能已经被电循环了。
发布于 2015-05-31 06:18:43
一切都失败了。这是系统管理员生活的一部分。任何依赖于提供100%正常运行时间的服务的商业计划都是糟糕的。在我说其他的话之前,请允许我注意,我不知道关于这次停电的任何细节。
话虽如此,我以前也曾经历过工业级UPSes的失败。在高端的colo,我们有一个800 A断路器故障部分打开,这意味着所有受保护的服务器都连接了一段时间的街道和UPS电源,然后在四个小时内什么都没有。当它回来的时候,我们发现我们的主DB服务器已经失去了将近一半的had,因为快速的能量循环和尖峰。那是有趣的一天。
当然,您可以在每个机架上使用UPS复制站点UPS的功能。我从来没有遇到过这样做的人,我怀疑原因是它使单个故障点加倍,更糟糕的是,它在你的套件和工业UPS之间插入了第二个质量较低的SPOF。数据中心大小的UPSes将定期提供服务,受到高度监控,几乎不会(但不会)出现故障;机架大小的UPSes更像消费者级的设备,而且会更频繁地失效。虽然colo的电源一直都很好,但我的个人服务器在UPS出现故障后已经用了整整一个周末了。
如果你真的想要一个高可用性的产品,你需要BGP路由的PI网卡,重复的套件分散在多个DC上,有多个供应商,有牙齿的重型SLA;整个非常非常昂贵的塔麦。这就是为什么我说你不需要额外的花费就能得到为99%,每增加9为次就会增加一个数量级的成本。。如果你的组织中有人认为把东西放进云中意味着你没有在硬件上运行,或者不需要担心它,那么他们就错了。
发布于 2015-05-31 06:49:20
我不知道这次中断的具体情况,但没有神奇的子弹“一个诡计,永远不会有一个中断”,这个提供者不知道或拒绝实现,在今后的道路上,提供商确实使用。
不管你做什么,不管你计划得多么仔细,总有可能出问题的。我曾经为一家石油和天然气勘探公司工作过一个非常大的数据中心,我们拥有当时最先进的IBM大型机技术。它不仅是钱能买到的最快的系统,也是IBM能够提供的最可靠、最冗余和最有弹性的系统。
但失败了,我们中断了36个小时。不是因为代码错误或电源问题,或者你通常会与导致大停电有关的任何事情,而是因为一个小的橡胶垫圈,花费几分钱。
系统是水冷的,水冷系统也有冗余和弹性内置。当时没有人真正意识到这一点,但只有一个小的“单一故障点”--允许水冷却回路从一个入口和出口管道中加压或排出的泵。猜到我之前提到的洗衣机在哪里了,现在.?
那么,我该把这件轶事带到哪里去呢?如果您希望从云/托管服务中获得冗余,那么与其从战术上考虑UPS与power rails的安排,不如从战略上考虑,选择一个具有多个地理位置和万无一失的供应商(或多个提供商,并接受内部管理此服务的开销)(它们/您如何定义?他们/你如何测试它?)他们之间的故障转移。
https://serverfault.com/questions/695590
复制相似问题