文章/答案/技术大牛

发布

社区首页 >问答首页 >硬盘/ Raid1问题

问硬盘/ Raid1问题
EN

Server Fault用户

提问于 2011-10-03 12:59:30

回答 1查看 242关注 0票数 1

我的根服务器上的硬盘有问题。

它在一个软件Raid1中使用两个hdds运行。

在通过O_DIRECT和innodb_flush_log_at_trx_commit=0编写的大型sda DB出现性能问题之后，我替换了其中一个磁盘(sda)，因为智能值显示了很高的错误率。

一周前，再次出现性能问题，以下消息出现在syslog中：

Sep 25 15:09:41 server02 kernel: ata1.00: exception Emask 0x0 SAct 0x2 SErr 0x0 action 0x6 frozen
Sep 25 15:09:41 server02 kernel: ata1.00: failed command: READ FPDMA QUEUED
Sep 25 15:09:41 server02 kernel: ata1.00: cmd 60/08:08:58:ed:1e/00:00:79:00:00/40 tag 1 ncq 4096 in
Sep 25 15:09:41 server02 kernel:         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Sep 25 15:09:41 server02 kernel: ata1.00: status: { DRDY }
Sep 25 15:09:41 server02 kernel: ata1: hard resetting link
Sep 25 15:09:41 server02 kernel: ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Sep 25 15:09:41 server02 kernel: ata1.00: configured for UDMA/133
Sep 25 15:09:41 server02 kernel: ata1.00: device reported invalid CHS sector 0
Sep 25 15:09:41 server02 kernel: ata1: EH complete

mdadm自动禁用/dev/sdb3 3。然后我更换了第二个硬盘(sdb)，并更换了电缆和端口。

现在，我又犯了同样的错误：

Oct  2 21:44:46 server02 kernel: ata2.00: exception Emask 0x0 SAct 0x6 SErr 0x0 action 0x6 frozen
Oct  2 21:44:46 server02 kernel: ata2.00: failed command: READ FPDMA QUEUED
Oct  2 21:44:46 server02 kernel: ata2.00: cmd 60/18:08:10:08:24/00:00:79:00:00/40 tag 1 ncq 12288 in
Oct  2 21:44:46 server02 kernel:         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Oct  2 21:44:46 server02 kernel: ata2.00: status: { DRDY }
Oct  2 21:44:46 server02 kernel: ata2.00: failed command: READ FPDMA QUEUED
Oct  2 21:44:46 server02 kernel: ata2.00: cmd 60/10:10:30:08:24/00:00:79:00:00/40 tag 2 ncq 8192 in
Oct  2 21:44:46 server02 kernel:         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Oct  2 21:44:46 server02 kernel: ata2.00: status: { DRDY }
Oct  2 21:44:46 server02 kernel: ata2: hard resetting link
Oct  2 21:44:46 server02 kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Oct  2 21:44:46 server02 kernel: ata2.00: configured for UDMA/133
Oct  2 21:44:46 server02 kernel: ata2.00: device reported invalid CHS sector 0
Oct  2 21:44:46 server02 kernel: ata2.00: device reported invalid CHS sector 0
Oct  2 21:44:46 server02 kernel: ata2: EH complete

/dev/sdb3 3再次被停用。

有人有什么想法吗?我的服务器可能出了什么问题？

谢谢!克里斯蒂安

hard-drive

raid1

回答 1

Server Fault用户

发布于 2011-10-03 13:37:42

替换两个HDD后，您再次出现错误，指示磁盘出现硬件问题。这可能意味着您非常不幸，或者还有其他一些问题，这表明它本身就是磁盘故障。这可能是：

主板的问题--也许SATA控制器有问题。
电缆的问题--松动、磨损、弯曲等。
环境-温度，振动，湿度。
SATA芯片驱动程序的问题。
不稳定的空调。

你能在测试/开发机器上重现这个问题吗？是否有触发故障的东西(备份、加载尖峰、特定查询)？问题是间歇性的(您记录了几个错误，然后服务器运行正常)，还是持久的(一旦它开始出现，它就会继续出现)？

就我个人而言，我不相信这台机器，我会将数据迁移到其他服务器，同时查找错误的原因。3在短时间内磁盘故障是可能的(有时人们中彩票)，但不太可能。

票数 1

页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://serverfault.com/questions/317927

复制

相似问题

问硬盘/ Raid1问题
EN

回答 1

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问硬盘/ Raid1问题EN

回答 1

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问硬盘/ Raid1问题
EN