我最近构建了一个运行Solr的小型集群。该簇由12个超微型叶片组成,运行着E3-1270V2和32 of的ram。
其中11台服务器运行良好。其中一个经常撞到我身上。当服务器崩溃时,它通常会在终端上产生一些输出。第一次是:
双故障: 0000 #1
嗯..。太神秘了。从那时起,我就重新创建了这个问题,并得到了一些更有趣的消息。

这是另一个同样神秘的信息。

另一个有趣的缺点是,我可以启动sysbench并在CPU不崩溃的情况下最大限度地释放CPU,但是直到我启动Java才能可靠地崩溃。
我已经尝试关闭以下CPU功能:
非常感谢!
发布于 2014-03-10 15:46:38
我有过在HP ProLiant服务器上使用Nehalem和Westmere的这种经验。在我的示例中,服务器将正确发布并识别所有RAM,但在应用应用程序加载之后,会生成与特定插槽相关联的机器检查异常。
如果您还没有,请尝试将问题隔离到特定的DIMM或DIMM槽,看看它是否跟随模块的移动。如果错误仍然存在并被绑定到特定的插槽.我建议检查CPU套接字。检查CPU的主板插座(S),并注意弯曲的引脚。
这是SuperMicro齿轮,所以我不知道保修条款。但希望这只是RAM,因为这比系统板更容易替换。
https://serverfault.com/questions/581033
复制相似问题