如何全面评估RAID配置?
拉动驱动器是一回事,但是有更多的工具和技术吗?
我已经考虑过通过一个跑步驱动器(粉末驱动钉枪)钉,看看会发生什么,或模拟各种电气异常(短路/打开电缆,电力超载和浪涌等)。
应该测试什么,以及如何测试?
-Adam
发布于 2009-05-01 17:44:32
我认为你的测试应该包括你计划的合理案例。如果您试图在丛林中设置服务器,那么电气波动是合理的测试套件。如果您是在一个数据中心,服务协议可能涵盖权力。
如果你认为一个驱动器在机架内疯狂爆炸是合理的-那就测试它。也许你在巴格达的指挥中心设置了一台服务器。但是再一次,如果你在华盛顿州,那就不太可能了。
通常情况下,您的测试应该涵盖所有预期的情况:
以及合理的极端情况。
发布于 2009-06-01 20:01:36
如果您关心整个解决方案的最终可靠性,那么测试一个失败的驱动器确实很重要。我看到的每一个失败的RAID解决方案(意味着冗余无法防止失败的驱动器)都是由于未能测试真正的驱动器故障而造成的。通常的测试是拉出一个驱动器,声称驱动器故障已经过测试,然后继续前进。
最好的解决方案可能是有一个边缘驱动器集合,或修改固件,导致不一致的响应。只有存储供应商才有可能拥有此功能。
我喜欢把钉子钉进运行驱动器的想法,但相邻驱动器上的力可能导致不现实的灾难性故障。或者驱动器的完全故障可能导致不现实的清洁故障。
如果允许我对RAID进行合法的测试,我会以不同的方式摧毁几个驱动器。将电线连接到驱动器板上的任意部件上,然后将其煎或短路。事实上,如果外壳的几何形状使得这不太可能破坏相邻的驱动器,那么就给驱动器钉上一个钉子。(我认为由此产生的数组其余部分的碰撞是一个合理的测试)。截取驱动器的数据路径,并返回所有可能的错误、无意义的结果或由于随机时间而延迟的正确结果。
预期驱动器返回错误的块有时。预期驱动器会在其连接上引起任何可能的电气问题。
我的经验是,没有人考虑存储购买想要做真正的测试。这可能暴露出真正的问题。我很想知道是否有谁真正测试了存储可靠性--当然,他们没有发布结果。
https://serverfault.com/questions/2615
复制相似问题