首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >硬盘/ Raid1问题

硬盘/ Raid1问题
EN

Server Fault用户
提问于 2011-10-03 12:59:30
回答 1查看 242关注 0票数 1

我的根服务器上的硬盘有问题。

它在一个软件Raid1中使用两个hdds运行。

在通过O_DIRECT和innodb_flush_log_at_trx_commit=0编写的大型sda DB出现性能问题之后,我替换了其中一个磁盘(sda),因为智能值显示了很高的错误率。

一周前,再次出现性能问题,以下消息出现在syslog中:

代码语言:javascript
复制
Sep 25 15:09:41 server02 kernel: ata1.00: exception Emask 0x0 SAct 0x2 SErr 0x0 action 0x6 frozen
Sep 25 15:09:41 server02 kernel: ata1.00: failed command: READ FPDMA QUEUED
Sep 25 15:09:41 server02 kernel: ata1.00: cmd 60/08:08:58:ed:1e/00:00:79:00:00/40 tag 1 ncq 4096 in
Sep 25 15:09:41 server02 kernel:         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Sep 25 15:09:41 server02 kernel: ata1.00: status: { DRDY }
Sep 25 15:09:41 server02 kernel: ata1: hard resetting link
Sep 25 15:09:41 server02 kernel: ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Sep 25 15:09:41 server02 kernel: ata1.00: configured for UDMA/133
Sep 25 15:09:41 server02 kernel: ata1.00: device reported invalid CHS sector 0
Sep 25 15:09:41 server02 kernel: ata1: EH complete 

mdadm自动禁用/dev/sdb3 3。然后我更换了第二个硬盘(sdb),并更换了电缆和端口。

现在,我又犯了同样的错误:

代码语言:javascript
复制
Oct  2 21:44:46 server02 kernel: ata2.00: exception Emask 0x0 SAct 0x6 SErr 0x0 action 0x6 frozen
Oct  2 21:44:46 server02 kernel: ata2.00: failed command: READ FPDMA QUEUED
Oct  2 21:44:46 server02 kernel: ata2.00: cmd 60/18:08:10:08:24/00:00:79:00:00/40 tag 1 ncq 12288 in
Oct  2 21:44:46 server02 kernel:         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Oct  2 21:44:46 server02 kernel: ata2.00: status: { DRDY }
Oct  2 21:44:46 server02 kernel: ata2.00: failed command: READ FPDMA QUEUED
Oct  2 21:44:46 server02 kernel: ata2.00: cmd 60/10:10:30:08:24/00:00:79:00:00/40 tag 2 ncq 8192 in
Oct  2 21:44:46 server02 kernel:         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
Oct  2 21:44:46 server02 kernel: ata2.00: status: { DRDY }
Oct  2 21:44:46 server02 kernel: ata2: hard resetting link
Oct  2 21:44:46 server02 kernel: ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Oct  2 21:44:46 server02 kernel: ata2.00: configured for UDMA/133
Oct  2 21:44:46 server02 kernel: ata2.00: device reported invalid CHS sector 0
Oct  2 21:44:46 server02 kernel: ata2.00: device reported invalid CHS sector 0
Oct  2 21:44:46 server02 kernel: ata2: EH complete

/dev/sdb3 3再次被停用。

有人有什么想法吗?我的服务器可能出了什么问题?

谢谢!克里斯蒂安

EN

回答 1

Server Fault用户

发布于 2011-10-03 13:37:42

替换两个HDD后,您再次出现错误,指示磁盘出现硬件问题。这可能意味着您非常不幸,或者还有其他一些问题,这表明它本身就是磁盘故障。这可能是:

  1. 主板的问题--也许SATA控制器有问题。
  2. 电缆的问题--松动、磨损、弯曲等。
  3. 环境-温度,振动,湿度。
  4. SATA芯片驱动程序的问题。
  5. 不稳定的空调。

你能在测试/开发机器上重现这个问题吗?是否有触发故障的东西(备份、加载尖峰、特定查询)?问题是间歇性的(您记录了几个错误,然后服务器运行正常),还是持久的(一旦它开始出现,它就会继续出现)?

就我个人而言,我不相信这台机器,我会将数据迁移到其他服务器,同时查找错误的原因。3在短时间内磁盘故障是可能的(有时人们中彩票),但不太可能。

票数 1
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/317927

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档