首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >我需要更换NVME SSD吗?

我需要更换NVME SSD吗?
EN

Server Fault用户
提问于 2020-06-23 13:32:55
回答 1查看 1.5K关注 0票数 1

我有一个简单的服务器设置:

2 NVME SSD磁盘(均为三星MZVLB1T0HALR-00000 for 1TB)合并为RAID0。

OS Ubuntu 19.04

今天我的系统停止了反应。重新启动没有帮助。我通过KVM连接,并在启动屏幕上注意到这些错误消息:

代码语言:javascript
复制
md/raid0:md0: too few disks (1 of 2) - aborting!
md: pers->run() failed ...
mdadm: failed to start array /dev/md/0: Invalid argument
md/raid1:md1: active with 1 out of 2 mirrors
md1: detected capacity change from 0 to 536281088
md/raid0:md2: too few disks (1 or 2) - aborting!
md: pers->run() failed ...
mdadm: failed to start array /dev/md/2: Invalid argument

然后引导到救援系统,并试图检查磁盘的错误,但我找不到第二个磁盘。只有/dev/nvme0,但没有/dev/nvme1

我写信给技术支持部门(我的服务器在Hetzner),让他们帮我检查磁盘。他们关闭了服务器一分钟,然后打开它,能够看到救援系统中的第二个磁盘。

他们检查了两个驱动器的错误,第一个驱动器显示了一些智能错误:

代码语言:javascript
复制
sudo nvme smart-log /dev/nvme0
Smart Log for NVME device:nvme0 namespace-id:ffffffff
critical_warning                    : 0
temperature                         : 33 C
available_spare                     : 100%
available_spare_threshold           : 10%
percentage_used                     : 21%
data_units_read                     : 279,672,974
data_units_written                  : 366,481,283
host_read_commands                  : 2,479,016,466
host_write_commands                 : 2,637,293,356
controller_busy_time                : 19,928
power_cycles                        : 10
power_on_hours                      : 5,153
unsafe_shutdowns                    : 4
media_errors                        : 21
num_err_log_entries                 : 26
Warning Temperature Time            : 0
Critical Composite Temperature Time : 0
Temperature Sensor 1                : 33 C
Temperature Sensor 2                : 39 C
Thermal Management T1 Trans Count   : 0
Thermal Management T2 Trans Count   : 0
Thermal Management T1 Total Time    : 0
Thermal Management T2 Total Time    : 0

他们告诉我磁盘好像坏了,需要更换。当然,所有的数据都会丢失。

我试图简单地重新启动系统一次(因为他们设法连接第二个磁盘返回)和系统正常加载!

然后,我尝试使用nvme error-log命令读取错误日志,但它只显示了“成功”条目:

代码语言:javascript
复制
sudo nvme error-log /dev/nvme0
Error Log Entries for device:nvme0 entries:64
.................
 Entry[ 0]
.................
error_count  : 0
sqid         : 0
cmdid        : 0
status_field : 0(SUCCESS: The command completed successfully)
parm_err_loc : 0
lba          : 0
nsid         : 0
vs           : 0
cs           : 0
.................
 Entry[ 1]
.................
error_count  : 0
sqid         : 0
cmdid        : 0
status_field : 0(SUCCESS: The command completed successfully)
parm_err_loc : 0
lba          : 0
nsid         : 0
vs           : 0
cs           : 0
...and so on

这个系统似乎正常工作。我不知道那是什么。但出于某种原因,其中一个磁盘突然停止,不想启动,直到完全重新启动暂停完成。

现在我想知道-是否有办法读取实际的错误日志?测试磁盘以确保它真的需要被替换?

EN

回答 1

Server Fault用户

发布于 2020-12-03 21:48:43

如果系统按预期工作,并且没有报告其他错误,那么一切都应该是好的。

根据NVM速递管理接口描述:“响应消息状态值--其他表示成功的消息状态值表示发生了...错误”

显然,磁盘BIOS正在使用错误日志报告成功!

票数 0
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/1022607

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档