我的根服务器上的硬盘有问题。
它在一个软件Raid1中使用两个hdds运行。
在通过O_DIRECT和innodb_flush_log_at_trx_commit=0编写的大型sda DB出现性能问题之后,我替换了其中一个磁盘(sda),因为智能值显示了很高的错误率。
一周前,再次出现性能问题,以下消息出现在syslog中:
Sep 25 15:09:41 server02 kernel: ata1.00: exception Emask 0x0 SAct 0x2 SErr 0x0 action 0x6 frozen
Sep 25 15:09:41 server02 kernel: ata1.00: failed command: READ FPDMA QUEUED
Sep 25 15:09:41 server02 kernel: ata1.00: cmd 60/08:08:58:ed:1e/00:00:79:00:00/40 tag 1 ncq 4096 in
Sep 25 15:09:41 server02 kernel: res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Sep 25 15:09:41 server02 kernel: ata1.00: status: { DRDY }
Sep 25 15:09:41 server02 kernel: ata1: hard resetting link
Sep 25 15:09:41 server02 kernel: ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Sep 25 15:09:41 server02 kernel: ata1.00: configured for UDMA/133
Sep 25 15:09:41 server02 kernel: ata1.00: device reported invalid CHS sector 0
Sep 25 15:09:41 server02 kernel: ata1: EH complete mdadm自动禁用/dev/sdb3 3。然后我更换了第二个硬盘(sdb),并更换了电缆和端口。
现在,我又犯了同样的错误:
Oct 2 21:44:46 server02 kernel: ata2.00: exception Emask 0x0 SAct 0x6 SErr 0x0 action 0x6 frozen
Oct 2 21:44:46 server02 kernel: ata2.00: failed command: READ FPDMA QUEUED
Oct 2 21:44:46 server02 kernel: ata2.00: cmd 60/18:08:10:08:24/00:00:79:00:00/40 tag 1 ncq 12288 in
Oct 2 21:44:46 server02 kernel: res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Oct 2 21:44:46 server02 kernel: ata2.00: status: { DRDY }
Oct 2 21:44:46 server02 kernel: ata2.00: failed command: READ FPDMA QUEUED
Oct 2 21:44:46 server02 kernel: ata2.00: cmd 60/10:10:30:08:24/00:00:79:00:00/40 tag 2 ncq 8192 in
Oct 2 21:44:46 server02 kernel: res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Oct 2 21:44:46 server02 kernel: ata2.00: status: { DRDY }
Oct 2 21:44:46 server02 kernel: ata2: hard resetting link
Oct 2 21:44:46 server02 kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Oct 2 21:44:46 server02 kernel: ata2.00: configured for UDMA/133
Oct 2 21:44:46 server02 kernel: ata2.00: device reported invalid CHS sector 0
Oct 2 21:44:46 server02 kernel: ata2.00: device reported invalid CHS sector 0
Oct 2 21:44:46 server02 kernel: ata2: EH complete/dev/sdb3 3再次被停用。
有人有什么想法吗?我的服务器可能出了什么问题?
谢谢!克里斯蒂安
发布于 2011-10-03 13:37:42
替换两个HDD后,您再次出现错误,指示磁盘出现硬件问题。这可能意味着您非常不幸,或者还有其他一些问题,这表明它本身就是磁盘故障。这可能是:
你能在测试/开发机器上重现这个问题吗?是否有触发故障的东西(备份、加载尖峰、特定查询)?问题是间歇性的(您记录了几个错误,然后服务器运行正常),还是持久的(一旦它开始出现,它就会继续出现)?
就我个人而言,我不相信这台机器,我会将数据迁移到其他服务器,同时查找错误的原因。3在短时间内磁盘故障是可能的(有时人们中彩票),但不太可能。
https://serverfault.com/questions/317927
复制相似问题