文章/答案/技术大牛

发布

社区首页 >问答首页 >ECC CE (可修正错误)每5分钟精确发生一次。

问ECC CE (可修正错误)每5分钟精确发生一次。
EN

Server Fault用户

提问于 2014-05-07 10:38:05

回答 2查看 4.3K关注 0票数 1

在我们的一个计算节点上，我得到了ECC (可纠正错误)。有点奇怪的是，错误并不是巨大的，只是每5分钟发生一次。

messages.log：

May  7 11:43:37 armada9 kernel: [22220081.676263] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x41daad offset:0xc30 grain:0 syndrome:0x2254)
May  7 11:48:37 armada9 kernel: [22220381.919057] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x407bb8 offset:0x150 grain:0 syndrome:0x33a8)
May  7 11:53:37 armada9 kernel: [22220682.161798] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x41e6bd offset:0x6a0 grain:0 syndrome:0x33a8)
May  7 11:58:37 armada9 kernel: [22220982.404501] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x427c14 offset:0x880 grain:0 syndrome:0x33a8)
May  7 12:03:37 armada9 kernel: [22221282.647210] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x426e88 offset:0x830 grain:0 syndrome:0x33a8)

syslog示例条目：

May  7 12:03:37 armada9 kernel: [22221282.647114] [Hardware Error]: MC4 Error (node 1): DRAM ECC error detected on the NB.
May  7 12:03:37 armada9 kernel: [22221282.647210] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x426e88 offset:0x830 grain:0 syndrome:0x33a8)
May  7 12:03:37 armada9 kernel: [22221282.647215] [Hardware Error]: Error Status: Corrected error, no action required.
May  7 12:03:37 armada9 kernel: [22221282.647299] [Hardware Error]: CPU:6 (10:8:0) MC4_STATUS[Over|CE|MiscV|-|AddrV|CECC]: 0xdc54400033080813
May  7 12:03:37 armada9 kernel: [22221282.647393] [Hardware Error]: MC4_ADDR: 0x0000000426e88830
May  7 12:03:37 armada9 kernel: [22221282.647443] [Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: SRC (no timeout)

令我困惑的另一件事是，cat /sys/devices/system/edac/mc/mc*/csrow*/ce_count显示了4x 0。dmidecode -t memory | grep Size报告说，安装了8x 2GB骰子。但是cat /sys/devices/system/edac/mc/mc*/csrow*/size_mb显示了4倍的4096。我猜内存芯片是单排的，两对骰子连在一起。这样想对吗？尽管如此，它仍然不能解释为什么错误计数是0。

这已经持续了2-3天了。到目前为止，每个错误都被报告为已更正，但这是相当恼人的，而且可能不安全。

RAM死了吗?我很幸运，它只是碰巧被放置在里面的某个系统进程(相对于计算而言)？我不认为我每5分钟就能运行一次，但也许有些测井工具。

或者可能是别的原因？

memory

hardware

ecc

回答 2

Server Fault用户

发布于 2014-06-19 18:41:10

当我在PowerEdge R815中安装新的DIMM时，也发生了类似的问题。我认为其中一个DIMM是坏的，但不知道它可能是32 DIMM中的哪一个。结果显示，硬件的LCD面板(和硬件日志)报告了故障，并提供了DIMM插槽id。当我重新设置DIMM时，错误消失了--所以这不是一个可以被ECC纠正的错误。

票数 1

Server Fault用户

发布于 2016-04-12 23:04:49

重要的是将csrow和通道映射到物理时隙/DIMM，并尽快替换。根据我的经验，您将开始收到越来越多的错误，但这取决于芯片的坏速度，我已经看到它从每天几个错误发展到第二天死亡，或者可能持续几个月或更长时间(这都取决于您的工作量)。最终，您的控制台将被填满，并最终导致UE (不可纠正的错误)，您的服务器将崩溃，DIMM将无法使用。

另一件重要的事情是，如果您的BIOS (以及大多数服务器BIOS将这样做)检测到多个位故障，它可能会禁用DIMM插槽。不要在BIOS中擦除/擦除或重置启用的DIMM，否则您的服务器可能根本不会启动(就像在没有POST中那样)，并且除非您还记得哪个DIMM标记不好，否则您将不得不删除一个接一个的芯片，直到它启动才能确定哪个是坏的(在公司或数据中心设置中会有很大的痛苦)。另外，如果替换标记为BIOS的DIMM，您可能需要重新启用它，或者从BIOS中删除坏DIMM的记录，以便识别它。

票数 1

页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://serverfault.com/questions/593616

复制

相似问题

问ECC CE (可修正错误)每5分钟精确发生一次。
EN

回答 2

Server Fault用户

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问ECC CE (可修正错误)每5分钟精确发生一次。EN

回答 2

Server Fault用户

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问ECC CE (可修正错误)每5分钟精确发生一次。
EN