$ sudo tail /var/log/messages
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)
Jan 30 13:47:58 www kernel: EDAC MC0: CE row 3, channel 0, label "": Corrected error (Socket=0 channel=1 dimm=1)正如你所看到的,这是一个惊人的速度,但我不知道的EDAC。据我所知,这表明内存可能有问题,这看起来有可能吗?
我知道这件事没什么可做的,我还能做些什么来说明这一点呢?这是一个活动服务器,所以我不能重新启动它,也不能轻易地删除它。
发布于 2012-01-30 15:16:23
我希望我的服务器ECC芯片能得到我正在运行的EDAC代码的支持!尝试使用dmidecode -t memory查看您拥有的ECC硬件。
在您的日志中,您将从ECC芯片获得通知;如果您的芯片没有得到支持(就像我的!)你会得到安静的ECC修正。在您的情况下,ECC更正发生了,您也得到了通知,因为您有支持。
一开始我会去换那个记忆棒。另一方面,你可能有一个错误的通道,或一个错误的处理器核心。我曾经在memtest86.org中诊断出这样的问题(最初的memtest86支持SMP,试试memtest86+)。
禁用BIOS中的ECC,使用软盘/USB棒引导memtest86,并查看是否有一串地址被标记,如果出现这种情况,可能是内存通道问题。
https://serverfault.com/questions/355019
复制相似问题