我有一个简单的服务器设置:
2 NVME SSD磁盘(均为三星MZVLB1T0HALR-00000 for 1TB)合并为RAID0。
OS Ubuntu 19.04
今天我的系统停止了反应。重新启动没有帮助。我通过KVM连接,并在启动屏幕上注意到这些错误消息:
md/raid0:md0: too few disks (1 of 2) - aborting!
md: pers->run() failed ...
mdadm: failed to start array /dev/md/0: Invalid argument
md/raid1:md1: active with 1 out of 2 mirrors
md1: detected capacity change from 0 to 536281088
md/raid0:md2: too few disks (1 or 2) - aborting!
md: pers->run() failed ...
mdadm: failed to start array /dev/md/2: Invalid argument然后引导到救援系统,并试图检查磁盘的错误,但我找不到第二个磁盘。只有/dev/nvme0,但没有/dev/nvme1。
我写信给技术支持部门(我的服务器在Hetzner),让他们帮我检查磁盘。他们关闭了服务器一分钟,然后打开它,能够看到救援系统中的第二个磁盘。
他们检查了两个驱动器的错误,第一个驱动器显示了一些智能错误:
sudo nvme smart-log /dev/nvme0
Smart Log for NVME device:nvme0 namespace-id:ffffffff
critical_warning : 0
temperature : 33 C
available_spare : 100%
available_spare_threshold : 10%
percentage_used : 21%
data_units_read : 279,672,974
data_units_written : 366,481,283
host_read_commands : 2,479,016,466
host_write_commands : 2,637,293,356
controller_busy_time : 19,928
power_cycles : 10
power_on_hours : 5,153
unsafe_shutdowns : 4
media_errors : 21
num_err_log_entries : 26
Warning Temperature Time : 0
Critical Composite Temperature Time : 0
Temperature Sensor 1 : 33 C
Temperature Sensor 2 : 39 C
Thermal Management T1 Trans Count : 0
Thermal Management T2 Trans Count : 0
Thermal Management T1 Total Time : 0
Thermal Management T2 Total Time : 0他们告诉我磁盘好像坏了,需要更换。当然,所有的数据都会丢失。
我试图简单地重新启动系统一次(因为他们设法连接第二个磁盘返回)和系统正常加载!
然后,我尝试使用nvme error-log命令读取错误日志,但它只显示了“成功”条目:
sudo nvme error-log /dev/nvme0
Error Log Entries for device:nvme0 entries:64
.................
Entry[ 0]
.................
error_count : 0
sqid : 0
cmdid : 0
status_field : 0(SUCCESS: The command completed successfully)
parm_err_loc : 0
lba : 0
nsid : 0
vs : 0
cs : 0
.................
Entry[ 1]
.................
error_count : 0
sqid : 0
cmdid : 0
status_field : 0(SUCCESS: The command completed successfully)
parm_err_loc : 0
lba : 0
nsid : 0
vs : 0
cs : 0
...and so on这个系统似乎正常工作。我不知道那是什么。但出于某种原因,其中一个磁盘突然停止,不想启动,直到完全重新启动暂停完成。
现在我想知道-是否有办法读取实际的错误日志?测试磁盘以确保它真的需要被替换?
发布于 2020-12-03 21:48:43
如果系统按预期工作,并且没有报告其他错误,那么一切都应该是好的。
根据NVM速递管理接口描述:“响应消息状态值--其他表示成功的消息状态值表示发生了...错误”
https://serverfault.com/questions/1022607
复制相似问题