首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >系统稳定性问题-磁盘变成只读,系统停止,终端输入输出错误。

系统稳定性问题-磁盘变成只读,系统停止,终端输入输出错误。
EN

Unix & Linux用户
提问于 2021-01-06 21:57:50
回答 1查看 1.1K关注 0票数 2

我需要一些帮助,诊断和找到我的系统稳定性问题的根本原因。所有迹象都指向某种硬件问题(磁盘或RAM),但到目前为止,我的调查没有发现任何东西。

这是一个全新的系统,新的硬件运行Ubuntu20.04。它是一个NUC (D54250WYK / NUC8I5BEH),内存为2x16 2TB,2TB三星SSD (三星970 EVO )。它也是Ubuntu的新安装。这个系统很少安装在它上,只有码头引擎和大约8个集装箱。

症状是,系统每隔一段时间就会完全停止。我几乎无法通过SSH登录到机器,有一次我可以登录,运行的每一个命令都是:

代码语言:javascript
复制
-bash: /usr/bin/ls: Input/output error

有些时候,我根本无法远程登录,但直接打开机器上的终端,我可以看到许多登录到终端的错误,主要是磁盘已满或无法写入磁盘。

重新启动修复了一些事情,系统在问题再次发生前的1到6天内运行良好。

检查dmesg和syslog,在系统没有响应之前,我没有看到太多。我猜由于磁盘是只读的,它无法写入日志。我确实看到其他服务部门有一点抱怨(如:

代码语言:javascript
复制
[826122.177679] systemd[1]: This usually indicates unclean termination of a previous run, or service implementation deficiencies.
[826122.178711] systemd[1161852]: containerd.service: Failed to connect stdout to the journal socket, ignoring: Connection refused
[826122.178970] systemd[1161852]: containerd.service: Failed to execute command: Input/output error
[826122.179022] systemd[1161852]: containerd.service: Failed at step EXEC spawning /usr/bin/containerd: Input/output error
[826122.179430] systemd[1]: containerd.service: Main process exited, code=exited, status=203/EXEC
[826122.179439] systemd[1]: containerd.service: Failed with result 'exit-code'.
[826122.179568] systemd[1]: Failed to start containerd container runtime.

我还看到了很多UFW防火墙的日志记录,阻塞了各种请求(有些是我允许的端口,我不知道为什么会发生这种情况)。

根据研究,这似乎是错误的硬件,可能是磁盘或内存。因此,我尽可能多地对这两种疾病进行了诊断:

  • smartctl报告没有错误和健康的SSD
  • badblocks在整个系统中运行良好,没有问题,没有任何错误。
  • fsck不会发现任何问题,除非我因为错误的关机而重新启动(这是立即修复的)。
  • memtest86在没有问题的情况下运行了几个循环,并且报告了零错误。

我还能做什么来更好地诊断这个问题呢?我还能打开更多的日志吗?还有其他诊断工具可以用来找出病因吗?

EN

回答 1

Unix & Linux用户

回答已采纳

发布于 2021-01-19 06:29:40

经过大量的挖掘,我似乎找到了解决方案(到目前为止还没有撞车)。

tl;

博士

/etc/default/grub中,我在GRUB_CMDLINE_LINUX_DEFAULT变量中添加了:nvme_core.default_ps_max_latency_us=0pcie_aspm=off,最后的结果是:GRUB_CMDLINE_LINUX_DEFAULT="nvme_core.default_ps_max_latency_us=0 pcie_aspm=off"

这将禁用三星Evo SSD的APSM (高级电源管理),这似乎导致磁盘卸载或变得不可访问。

在Linux上,某些类型的较新的SSD和APSM似乎存在相当多的问题。大多数问题似乎都有解决办法,但似乎仍在影响着我。

这里有更多的读者:

票数 3
EN
页面原文内容由Unix & Linux提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://unix.stackexchange.com/questions/627923

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档