在执行dmesg时,我注意到日志中有EDAC错误消息。然后,我发现每次引导时都会收到相同的EDAC错误消息。这是在CentOS 6.4 x86_64上。我怀疑是内存问题,所以我从一个Live的memtest86 CentOS 6.0运行,它没有显示出任何问题。我试着移除一根RAM,打开电源,但仍然有EDAC错误信息。想知道这是否是最近的内核问题,我从CentOS 6.0LiveDVD中启动并查看了日志,那里也有一条EDAC消息,就像使用CentOS 6.4一样。
这是错误消息:
Jul 5 00:44:19 mybox kernel: dracut: Switching root
Jul 5 00:44:19 mybox kernel: readahead: starting
Jul 5 00:44:19 mybox kernel: udev: starting version 147
Jul 5 00:44:19 mybox kernel: EDAC MC: Ver: 2.1.0 Jun 12 2013
Jul 5 00:44:19 mybox kernel: EDAC MC0: Giving out device to 'i3000_edac' 'i3000': DEV 0000:00:00.0
Jul 5 00:44:19 mybox kernel: EDAC PCI0: Giving out device to module 'i3000_edac' controller 'EDAC PCI controller': DEV '0000:00:00.0' (POLLED)
Jul 5 00:44:19 mybox kernel: tg3.c:v3.124 (March 21, 2012)我没有遇到任何其他的系统问题。它运行在一个4GB内存的戴尔PowerEdge SC430上。它有两个内部80 GB的驱动器运行一个软件RAID,外部eSATA驱动器也在运行一个软件RAID。
如果是硬体问题,是否只与记忆体有关?会不会是别的什么?我愿意尝试更多的事情来找出真相,但我不知道下一步是什么。谢谢!
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE
EDAC MC0: CE page 0x1521e, offset 0xb00, grain 128, syndrome 0x49, row 0, channel 1, label "": i3000 CE发布于 2013-07-05 19:33:10
所示的行指的是“分发设备”意味着驱动程序已经初始化并正在与硬件对话。一种是指存储器控制器(MC0),另一种是指PCI控制器(PCI0)。
以CE开头的行引用可修正误差,即ECC硬件成功地纠正了错误。如果你每隔几个月只看到一次,没什么大不了的,宇宙射线之类的。如果你看到很多这样的东西,那么是时候更换受影响的RAM了,因为它可能很快就会死掉。
https://serverfault.com/questions/520994
复制相似问题