我正在管理一个带有mdadm RAID1中配置的两个固态驱动器的服务器。服务器正在使用RHEL6文件系统运行ext4。
今晚,服务器在夜间备份开始后不久就离线了,控制台报告了磁盘错误:

登录到控制台时,我发现mdadm标记了其中一个磁盘失败,文件系统被设置为只读。
在文件系统重新挂载为只读之前,我是否可以配置mdadm使驱动器失效?我更愿意在短时间内作为一个磁盘系统运行(直到可以安装替换磁盘),而不是立即将文件系统踢入只读模式--这将保证中断。
发布于 2018-03-19 09:58:12
默认情况下,它会这样做,但当然,我对此也有类似的问题。MD并不热衷于失败磁盘(或者实际上是通过重写扇区来修复扇区,硬件RAID控制器就是这样做的)。这就是为什么我设置我的日志监控扫描'ata异常‘,并在发生这种情况时给我发电子邮件。至少使用传统的HDD,这样可以更快地看到磁盘故障。
如果文件系统被标记为只读,错误就会上升到链上,并且MD设备也会看到错误。你确定sdb上没有错误吗?
或者,你确定驱动器完全失败了吗?就在最近,我可能会发现整个PCI总线失败了。所有连接到它的设备都开始产生错误(所有ATA和以太网),实际上文件系统被标记为只读,MD数组被标记为失败。但很明显,磁盘或MD不是问题所在。
要检查驱动器是否出错:我对SSD驱动器上的SMART没有多少经验,但至少在HDD驱动器上,智能日志可能显示了一些内容;其中有一个错误日志,您可以查看智能参数,也许可以与其他磁盘进行比较。
如果安装了smartmontools,则可以:
smartctl -a /dev/sda您也可能对如何排除我的RAID数组感兴趣。
编辑:至于PCI总线的事情。看起来您的问题是本地化在一个磁盘或控制器上的。
https://serverfault.com/questions/903337
复制相似问题