文章/答案/技术大牛

发布

问BUG:软锁- CPU#卡了x秒
EN

Unix & Linux用户

提问于 2013-03-27 22:14:24

回答 2查看 67.8K关注 0票数 34

我在stackexchange和其他地方看到了一些关于一个唠叨的"BUG: soft lockup - CPU#<n> stuck for <dt>s!"的错误报告和问题。到目前为止，我还没有找到任何关于该做什么或尝试什么的线索(更确切地说，我发现和遵循的线索并没有阻止这种情况的发生)。我还对此感到关切，因为：

这些事件的频率最近似乎缓慢上升(每月700多起)，
yum update和重新启动使它慢了一段时间，但是我已经看到一些锁又开始发生了，
几个进程(如果不是整个主机，很难判断)，当然包括我所有的交互shell在发生时都会被冻结一段时间，
我不确定它是否相关，但我看到许多与ntpd相关的日志/消息无法更新时钟。

以下是$(grep 'soft lockup' /var/log/messages*)的摘录：

Mar 22 10:02:35 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [kjournald:1048]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:36 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:37 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:38 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#0 stuck for 10s! [postgres:5372]
Mar 22 10:02:39 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [postgres:5368]
Mar 22 10:02:40 localhost kernel: BUG: soft lockup - CPU#15 stuck for 25s! [swapper:0]
Mar 22 15:42:16 localhost kernel: BUG: soft lockup - CPU#8 stuck for 25s! [kjournald:1048]
Mar 22 18:22:13 localhost kernel: BUG: soft lockup - CPU#15 stuck for 10s! [postgres:21356]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#7 stuck for 10s! [java:8653]
Mar 22 18:22:20 localhost kernel: BUG: soft lockup - CPU#8 stuck for 72s! [kjournald:1048]
Mar 22 21:21:37 localhost kernel: BUG: soft lockup - CPU#12 stuck for 29s! [kjournald:1048]
Mar 22 21:22:07 localhost kernel: BUG: soft lockup - CPU#12 stuck for 27s! [kjournald:1048]
Mar 23 02:01:47 localhost kernel: BUG: soft lockup - CPU#8 stuck for 10s! [kblockd/8:276]
Mar 23 02:02:22 localhost kernel: BUG: soft lockup - CPU#8 stuck for 34s! [kblockd/8:276]

这种情况发生在随机进程中，并且似乎很好地分布在虚拟主机的16个“核心”上。

主机是一个AWS EC2 "cc1.4xlarge“实例，其中有一个名为"EC2 CentOS 5.5 GPU (驱动程序260.19.29) ( AMI -42a2532b)”的AMI。它似乎被Xen虚拟化了。

cat /etc/redhat-release产生CentOS release 5.9 (Final)。'free'报告的内存为21G。

dmesg的负责人是：

Linux version 2.6.18-348.3.1.el5 (mockbuild@builder10.centos.org) (gcc version 4.1.2 20080704 (Red Hat 4.1.2-54)) #1 SMP Mon Mar 11 19:39:25 EDT 2013
Command line: ro root=/dev/VolGroup00/LogVol00 rhgb quiet console=tty0 console=ttyS0,115200n8
BIOS-provided physical RAM map:
 BIOS-e820: 0000000000010000 - 000000000009fc00 (usable)
 BIOS-e820: 000000000009fc00 - 00000000000a0000 (reserved)
 BIOS-e820: 00000000000e0000 - 0000000000100000 (reserved)
 BIOS-e820: 0000000000100000 - 00000000c0000000 (usable)
 BIOS-e820: 00000000fc000000 - 0000000100000000 (reserved)
 BIOS-e820: 0000000100000000 - 00000005dd800000 (usable)
DMI 2.4 present.
DMI: Xen HVM domU, BIOS 3.4.3-2.6.18 08/29/2012
ACPI: RSDP (v002    Xen                                ) @ 0x00000000000ea020
ACPI: XSDT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0062b0
ACPI: FADT (v004    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005ee0
ACPI: MADT (v002    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc005fe0
ACPI: SRAT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc0060c0
ACPI: SLIT (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006240
ACPI: HPET (v001    Xen      HVM 0x00000000 HVML 0x00000000) @ 0x00000000fc006270
ACPI: DSDT (v002    Xen      HVM 0x00000000 INTL 0x20090220) @ 0x(null)

下面显示了最近一段时间内这些“软锁”的累积计数(红线是在我执行最后一次yum update时，然后是reboot)：

。

下面显示持续时间的直方图(主机卡住多长时间)：

。

centos

xen

amazon-ec2

回答 2

Unix & Linux用户

发布于 2013-03-31 01:33:10

我在XEN4.2上也有这个问题，它有3.6和3.8内核(AlpineLinux)。

我搜索了一下，通过将clocksource=jiffies添加到我的内核中，我修复了它。你也可以试试“坑”，而不是吉非斯。

也有关于禁用BIOS中的C状态的报道。

票数 11

Unix & Linux用户

发布于 2016-04-02 00:20:30

我的Thinkpad T520也有同样的问题。但是，我没有对内核进行黑客攻击，而是做了一些更简单的事情。首先，我使用的是Centos7，我安装了基本系统，一切都很好。随后，我添加了GNOME，这也是我开始处理上面提到的问题的时候。我注意到很多制造商都为Windows安装做了准备。图形卡通常是为Win7(NVIDIA )设置的，我把它重置为集成的图形模式，没有更多的挂起/错误。该怎么做呢？重新启动您的Thinkpad点击F1或蓝色thinkvantage按钮进入BIOS。转到图形，选择集成图形，然后F10保存和退出。此卡有三种设置:集成、离散和NVIDIA (仅限Win7？)希望这能省点时间吗？

票数 2

页面原文内容由Unix & Linux提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://unix.stackexchange.com/questions/70377

复制

相似问题

问BUG:软锁- CPU#卡了x秒
EN

回答 2

Unix & Linux用户

Unix & Linux用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问BUG:软锁- CPU#卡了x秒EN

回答 2

Unix & Linux用户

Unix & Linux用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问BUG:软锁- CPU#卡了x秒
EN