首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何解释MCE消息?

如何解释MCE消息?
EN

Server Fault用户
提问于 2012-11-12 17:15:19
回答 1查看 12.5K关注 0票数 10

我注意到最近在我们的服务器上的/var/log/messages中出现了一些错误(如下所示)。但是,mce客户端似乎没有syslog中解码的条目那么确定错误源。为了解释MCE输出,是否有某种类型的密钥可以使用?

代码语言:javascript
复制
Nov 12 04:19:19 areion kernel: [14698753.176035] Machine check events logged
Nov 12 04:19:19 areion mcelog: HARDWARE ERROR. This is *NOT* a software problem!
Nov 12 04:19:19 areion mcelog: Please contact your hardware vendor
Nov 12 04:19:19 areion mcelog: MCE 0
Nov 12 04:19:19 areion mcelog: CPU 0 BANK 8
Nov 12 04:19:19 areion mcelog: MISC 640738dd0009159c ADDR 96236c6c0
Nov 12 04:19:19 areion mcelog: TIME 1352711959 Mon Nov 12 04:19:19 2012
Nov 12 04:19:19 areion mcelog: MCG status:
Nov 12 04:19:19 areion mcelog: MCi status:
Nov 12 04:19:19 areion mcelog: MCi_MISC register valid
Nov 12 04:19:19 areion mcelog: MCi_ADDR register valid
Nov 12 04:19:19 areion mcelog: MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Nov 12 04:19:19 areion mcelog: Transaction: Memory read error
Nov 12 04:19:19 areion mcelog: STATUS 8c0000400001009f MCGSTATUS 0
Nov 12 04:19:19 areion mcelog: MCGCAP 1c09 APICID 20 SOCKETID 1
Nov 12 04:19:19 areion mcelog: CPUID Vendor Intel Family 6 Model 44

所有错误似乎都与同一个内存库相关联:

代码语言:javascript
复制
areion:~# awk -F'mcelog:' '/mcelog:.*BANK/{ print $2; }' < /var/log/messages |uniq
 CPU 0 BANK 8 

我已经运行了mcelog守护进程,当我检查错误信息时,它似乎不知道这些错误来自何处。只有它们与CPU0相关联(我们在此框中只有一个CPU ):

代码语言:javascript
复制
Memory errors
SOCKET 1 CHANNEL any DIMM any
corrected memory errors:
        77 total
        77 in 24h
uncorrected memory errors:
        0 total
        0 in 24h
Per page corrected memory statistics:
359ffc000: total 2 2 in 24h online

3b93cc000: total 2 2 in 24h online

3ce45c000: total 2 2 in 24h online

96236c000: total 20 20 in 24h online triggered

96545c000: total 9 9 in 24h online

96a82c000: total 9 9 in 24h online

96a8ec000: total 1 1 in 24h online

96fb6c000: total 15 15 in 24h online triggered

9c2edc000: total 15 15 in 24h online triggered

9c5eac000: total 1 1 in 24h online

9c6a1c000: total 1 1 in 24h online

我根本不清楚我是怎么解释这些信息的。一方面,mce客户端没有指示通道或DIMM,但解码后的消息表明DIMM 8上发生了错误。dmesg似乎表明只记录了42条消息:

代码语言:javascript
复制
[14698753.176035] Machine check events logged
[14698753.629174] Machine check events logged
[14698815.338595] __ratelimit: 38 callbacks suppressed
[14698815.338628] Machine check events logged
[14698816.020797] Machine check events logged

我似乎收到了复杂的信息,这让我想知道,根据从不同来源报告的信息作出什么假设。

Misc信息:

代码语言:javascript
复制
areion:~# grep 'model name' /proc/cpuinfo |uniq
model name      : Intel(R) Xeon(R) CPU           X5670  @ 2.93GHz

areion:~# apt-cache policy mcelog |grep Installed
  Installed: 1.0~pre3-3

areion:~# lsb_release -a
No LSB modules are available.
Distributor ID: Debian
Description:    Debian GNU/Linux 6.0.6 (squeeze)
Release:        6.0.6
Codename:       squeeze
EN

回答 1

Server Fault用户

发布于 2013-01-11 01:26:10

您可能会尝试替换有关的DIMM (CPU 0,套接字8),并查看是否继续生成MCE消息。

mcelog包配置了一些随时间而发生的各种MCE事件的默认阈值。有关详细信息,请查看/etc/mcelog/mcelog.conf。对于内存页错误,阈值是24小时内的10个事件。(我不太清楚这个数字从何而来,但它可能是一个合理的参考点)。你的帖子提到了77个24小时内针对整堆页面的可纠正事件,所以很可能DIMM已经开发了一个问题,它可能会或不会变成更严重的问题。

我不会因为从不同的来源收到不一致的信息而感到太难过。总的来说,我发现在固件级别上的任何东西都是非常特定于平台的(即特定于特定的硬件模型)。对于与固件相关的问题,我的经验法则是,供应商的工具通常是最精确的,但却是最不实用的。更通用的开源工具更容易使用,但可能无法提供足够的信息来准确地显示正在发生的事情。

票数 2
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/447912

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档