在我们的一个计算节点上,我得到了ECC (可纠正错误)。有点奇怪的是,错误并不是巨大的,只是每5分钟发生一次。
messages.log:
May 7 11:43:37 armada9 kernel: [22220081.676263] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x41daad offset:0xc30 grain:0 syndrome:0x2254)
May 7 11:48:37 armada9 kernel: [22220381.919057] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x407bb8 offset:0x150 grain:0 syndrome:0x33a8)
May 7 11:53:37 armada9 kernel: [22220682.161798] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x41e6bd offset:0x6a0 grain:0 syndrome:0x33a8)
May 7 11:58:37 armada9 kernel: [22220982.404501] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x427c14 offset:0x880 grain:0 syndrome:0x33a8)
May 7 12:03:37 armada9 kernel: [22221282.647210] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x426e88 offset:0x830 grain:0 syndrome:0x33a8)syslog示例条目:
May 7 12:03:37 armada9 kernel: [22221282.647114] [Hardware Error]: MC4 Error (node 1): DRAM ECC error detected on the NB.
May 7 12:03:37 armada9 kernel: [22221282.647210] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x426e88 offset:0x830 grain:0 syndrome:0x33a8)
May 7 12:03:37 armada9 kernel: [22221282.647215] [Hardware Error]: Error Status: Corrected error, no action required.
May 7 12:03:37 armada9 kernel: [22221282.647299] [Hardware Error]: CPU:6 (10:8:0) MC4_STATUS[Over|CE|MiscV|-|AddrV|CECC]: 0xdc54400033080813
May 7 12:03:37 armada9 kernel: [22221282.647393] [Hardware Error]: MC4_ADDR: 0x0000000426e88830
May 7 12:03:37 armada9 kernel: [22221282.647443] [Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: SRC (no timeout)令我困惑的另一件事是,cat /sys/devices/system/edac/mc/mc*/csrow*/ce_count显示了4x 0。dmidecode -t memory | grep Size报告说,安装了8x 2GB骰子。但是cat /sys/devices/system/edac/mc/mc*/csrow*/size_mb显示了4倍的4096。我猜内存芯片是单排的,两对骰子连在一起。这样想对吗?尽管如此,它仍然不能解释为什么错误计数是0。
这已经持续了2-3天了。到目前为止,每个错误都被报告为已更正,但这是相当恼人的,而且可能不安全。
RAM死了吗?我很幸运,它只是碰巧被放置在里面的某个系统进程(相对于计算而言)?我不认为我每5分钟就能运行一次,但也许有些测井工具。
或者可能是别的原因?
发布于 2014-06-19 18:41:10
当我在PowerEdge R815中安装新的DIMM时,也发生了类似的问题。我认为其中一个DIMM是坏的,但不知道它可能是32 DIMM中的哪一个。结果显示,硬件的LCD面板(和硬件日志)报告了故障,并提供了DIMM插槽id。当我重新设置DIMM时,错误消失了--所以这不是一个可以被ECC纠正的错误。
发布于 2016-04-12 23:04:49
重要的是将csrow和通道映射到物理时隙/DIMM,并尽快替换。根据我的经验,您将开始收到越来越多的错误,但这取决于芯片的坏速度,我已经看到它从每天几个错误发展到第二天死亡,或者可能持续几个月或更长时间(这都取决于您的工作量)。最终,您的控制台将被填满,并最终导致UE (不可纠正的错误),您的服务器将崩溃,DIMM将无法使用。
另一件重要的事情是,如果您的BIOS (以及大多数服务器BIOS将这样做)检测到多个位故障,它可能会禁用DIMM插槽。不要在BIOS中擦除/擦除或重置启用的DIMM,否则您的服务器可能根本不会启动(就像在没有POST中那样),并且除非您还记得哪个DIMM标记不好,否则您将不得不删除一个接一个的芯片,直到它启动才能确定哪个是坏的(在公司或数据中心设置中会有很大的痛苦)。另外,如果替换标记为BIOS的DIMM,您可能需要重新启用它,或者从BIOS中删除坏DIMM的记录,以便识别它。
https://serverfault.com/questions/593616
复制相似问题