首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Solaris/OpenSolaris FMA和内存误报

Solaris/OpenSolaris FMA和内存误报
EN

Server Fault用户
提问于 2011-02-17 19:32:10
回答 1查看 420关注 0票数 0

我们有+500台服务器,使用的是超级主板和金斯敦内存,我们通常会看到以下警告:

代码语言:javascript
复制
# fmdump  -v
TIME                 UUID                                 SUNW-MSG-ID
Oct 27 15:49:44.9379 108510ec-b4e1-c94b-dd9f-f7b2969a4725 INTEL-8001-94
  100%  fault.memory.intel.dimm_ce

        Problem in: hc://:product-id=X7DB8:chassis-id=0123456789:server-id=hostname:serial=180104092839051c6a:part=KINGSTON:revision=C1/motherboard=0/memory-controller=1/dram-channel=3/dimm=0/rank=1
           Affects: hc://:product-id=X7DB8:chassis-id=0123456789:server-id=hostname:serial=180104092839051c6a:part=KINGSTON:revision=C1/motherboard=0/memory-controller=1/dram-channel=3/dimm=0/rank=1
               FRU: hc://:product-id=X7DB8:chassis-id=0123456789:server-id=hostname:serial=180104092839051c6a:part=KINGSTON:revision=C1/motherboard=0/memory-controller=1/dram-channel=3/dimm=0
          Location: DIMM4A

我的问题是:当您在非Oracle硬件上运行时,这些错误是否可信?

我们几乎什么都试过了(除了不再使用这些组件之外),但故障随机地又出现了(例如。更换dimm4a,几个月后dimm1b出现故障,更换所有内存和主板,几天后又出现另一个故障)。

我们替换的内存用memtest测试了几天,我们永远找不到问题。其他在Windows和Linux中使用相同硬件的团队没有看到它。索拉里斯是不是太敏感了?

现在,我们正在经历新一轮的记忆替换,但这正在成为一种痛苦。我们也找不到服务器的任何问题,它们一直工作得很好,但是随机出现的内存错误是可怕的。我们应该无视他们吗?

操作系统: OpenSolaris 2009.6 (b111)

EN

回答 1

Server Fault用户

发布于 2011-02-17 19:49:20

我只能猜测,但从我所读到的情况来看,您正在经历的错误是由于在给定时间内超出了可纠正的ECC错误的数量所致。这当然是一个问题,应该加以解决。

但是,如果您的其他团队在这些框上运行windows,并且没有遇到任何问题,这可能是由于以下事实: windows只是纠正了可纠正的ECC错误,并在OpenSolaris或FMA发出警告时保持沉默。

它绝对不应被忽视。如果我是你,我会花时间进一步调查windows机器,如果有可能检查那些纠正的,可修正的ECC错误。

票数 1
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/236901

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档