首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >自动重启,机器检查事件,AMD ryzen

自动重启,机器检查事件,AMD ryzen
EN

Server Fault用户
提问于 2017-07-01 15:58:06
回答 1查看 3.5K关注 0票数 5

我已经在arch linux上运行了一个全新的系统大约3周了,昨晚它自动重新启动。

在重启的时候日志中没有关闭/停止,所以我很确定这是与硬件相关的,而不是用户空间程序或acpi。

代码语言:javascript
复制
journalctl
Jul 01 06:21:15 euclid sshd[25731]: ...
-- Reboot --
Jul 01 06:24:46 euclid systemd-journald[305]: Time spent on flushing to /var is 547us for 0 entries.

然后,在靴子上,

代码语言:javascript
复制
Jul 01 06:24:46 euclid kernel: .... node  #0, CPUs:        #1  #2  #3
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 5: bea0000000000108
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b4260 MISC d012000101000000 SYND 4d000000 IPID 500b000000000 
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1498915479 SOCKET 0 APIC 3 microcode 800111c
Jul 01 06:24:46 euclid kernel:   #4  #5  #6  #7  #8  #9 #10 #11 #12 #13 #14 #15

当我试图运行mcelog时,我得到

代码语言:javascript
复制
0 % mcelog
mcelog: ERROR: AMD Processor family 23: mcelog does not support this processor.  Please use the edac_mce_amd module instead.
CPU is unsupported

我怀疑我要么低估了这个系统的PSU,要么在某个地方过热了。

我运行的所有PSU计算器都给了我750 W的推荐,所以我使用了一个850 W的PSU。不过,现在我正在考虑升级到1000 W的PSU。

我的问题是,我如何解释那个机器检查事件?我想这是我的CPU特有的?AMD是否发布了任何信息,使我能够解码该错误?我怎么知道我是不是因为过热而重启了呢?我在BIOS (ASUS)中找不到任何事件日志。

编辑:更多细节

处理器: Ryzen 71700

Mobo: Asus Prime x 370-Pro

RAM: G.SKILL三叉戟Z(4x8GB) 3200 (F4-3200C16D-16 16GTZKW)

PSU: EVGA SuperNOVA 850 P2 80+铂金850 W

GPU: GTX 1080-TI x2

句柄0x0000,DMI类型0,24个字节

BIOS信息

代码语言:javascript
复制
     Vendor: American Megatrends Inc.

代码语言:javascript
复制
     Version: 0604

代码语言:javascript
复制
     Release Date: 04/06/2017 

没有超频。库存BIOS设置。

它稳定运行了几个星期。我在活动前几天增加了3倍硬盘。

编辑:同样的崩溃似乎又发生了。

代码语言:javascript
复制
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: CPU 12: Machine Check: 0 Bank 5: bea0000000000108
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b3ef6 MISC d012000101000000 SYND 4d000000 IPID 500b000000000 
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1499406389 SOCKET 0 APIC c microcode 800111c
EN

回答 1

Server Fault用户

发布于 2017-07-11 18:53:12

这似乎是CPU硬件问题。在AMD社区论坛(https://community.amd.com/thread/215773)中,有人建议禁用SMT或OpCache作为解决办法,直到修复为止。

我在BIOS中禁用了OpCache,启动期间mce:硬件误差消息消失了.我有两个相同的系统,与冻结/重新启动有相同的问题。直到现在,这两个系统都没有冻结。

票数 2
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/858884

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档