我有一个4磁盘5TB的raid5设置,其中一个磁盘显示出下降的迹象。它报告媒体错误,从dmesg中我可以看到有几个读取错误得到了纠正。smartctl确实报告“通知”,但到目前为止没有恐慌。由于目前新磁盘相当昂贵,我开始思考linux层的健壮程度。
如果有人能对md如何处理磁盘错误有所了解,我将不胜感激。例如,md如何处理写入和读取错误--从数组中拒绝磁盘需要(实际上)采取什么措施。我还读到,最近md得到了映射坏块的支持。这是否意味着,如果我在运行内核>3.1的地方运行,或者md仍然试图“对它们进行工作”以使它们可用,那么我所遇到的读取错误就会被映射出来。
发布于 2011-11-26 22:11:59
如果您关心您的数据,请立即更改磁盘。每个子系统都尽其所能防止数据丢失,但它只能做这么多。即使是它也能在坏的街区周围映射:当有一个,就会有其他的。
你收到了关于迫在眉睫的问题的大量警告:忽视这些问题对你的客户数据是不负责任的。
编辑,因为这对评论来说太长了:
我不知道你的问题到底是什么?你想知道警告是否是认真的吗?是的,他们是。你需要做些什么吗?是的,现在。
当某些子系统报告读取错误时,它们是存在的,而且它们很重要。即使系统仍然能够纠正它们,很有可能两分钟后就不再是这种情况了,并且磁盘将被标记为失败并脱机。
Linux至少和任何硬件raid实现一样值得信赖,但在最好的情况下,我认为RAID5是一个危险的选择。它的问题是,在恢复过程中,您将不受保护,这对于RAID5来说是一个非常麻烦的情况。我认为它比某些硬件RAID系统更值得信赖,因为当磁盘即将故障时,您将得到高级警告,而硬件RAID可能只在事后通知您。软件RAID有一些缺点,主要与性能问题有关,但可靠性不是其中之一。
无论如何,不管怎么说,对于像您这样的情况,专业的方法是立即替换磁盘,这也会让我对我的私有磁盘阵列(在这种情况下我有一个备用磁盘)的反应。
发布于 2011-11-26 22:13:47
这是我们的一台戴尔服务器大约6年前的经验:当时我们没有使用硬件raid,因为不可能远程检测磁盘故障。
所以我们使用了软件raid 1 (md)。过了一段时间,突袭行动就退化了。查看/var/log/messages,我看到了与某个分区相关的IO错误列表。
我将分区重新添加到raid中,过了很短一段时间,它又被抛出了。
我发送了Dell-支持/var/log/messages输出,并立即获得了一个新磁盘。这是一种不受支持的Linux风格,并且只有最基本的支持级别。
我们有几台安装好的其他机器,并且再也没有遇到这些问题(即磁盘从未发生故障)。对我来说,这是你可以信赖md的证据。
我认为3.1内核仍然如此(我还没有这些)。
发布于 2011-11-26 22:17:02
据我所知,mdadm是一种健壮的软件RAID实现,在HD处于良好状态的情况下,很少会产生任何类型的错误,我有几台配置了mdadm的服务器,而且日志文件中也没有读取错误。
使用以下方法检查数组的状态:
mdadm --detail /dev/mdX但是我强烈建议你更换错误的驱动器.
https://serverfault.com/questions/335062
复制相似问题