首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >有好的驾驶酷刑测试工具吗?

有好的驾驶酷刑测试工具吗?
EN

Unix & Linux用户
提问于 2013-04-15 23:43:30
回答 4查看 47.7K关注 0票数 25

最近我遇到了奇怪和罕见的文件系统损坏,我怀疑这是我的SSD的错。我正在寻找一个好的驾驶酷刑测试工具。一些东西可以写到整个磁盘,然后回去读它,寻找飞行的写入,损坏的块,恢复到旧的修订,以及其他错误。这将远远超过badblocks所做的工作。有这样的工具吗?

注意,我不是在寻找性能基准,我已经检查了智能状态;说健康和没有坏块报告。

EN

回答 4

Unix & Linux用户

发布于 2013-04-16 00:49:16

可能有点过火了,但有凤眼莲测试套件。还有bonnie++hdparm

我通常使用hdparm,例如:

代码语言:javascript
复制
% hdparm -Tt /dev/hdb
/dev/hdb:
 Timing buffer-cache reads:   128 MB in  1.25 seconds =102.40 MB/sec
 Timing buffered disk reads:  64 MB in 16.70 seconds =  3.83 MB/sec

我不认为hdparm是一种酷刑测试,但它确实给了您一个驱动器总体性能的大致概念。

确定驱动器运行状态

在对驱动器进行了测试之后,可以使用下面的命令来检查驱动器的一般健康状况:

代码语言:javascript
复制
% sudo udisks --dump | grep -A 24 Updates
 Attribute       Current|Worst|Threshold  Status   Value       Type     Updates
===============================================================================
 raw-read-error-rate         103| 99| 34   good    5854752     Pre-fail Online 
 spin-up-time                100| 99|  0    n/a    0           Pre-fail Online 
 start-stop-count             98| 98| 20   good    2785        Old-age  Online 
 reallocated-sector-count    100|100| 36   good    0 sectors   Pre-fail Online 
 seek-error-rate              72| 60| 30   good    25872884688 Pre-fail Online 
 power-on-hours               89| 89|  0    n/a    424.4 days  Old-age  Online 
 spin-retry-count            100|100| 97   good    0           Pre-fail Online 
 power-cycle-count            98| 98| 20   good    2753        Old-age  Online 
 attribute-184               100|100| 99   good    0           Old-age  Online 
 reported-uncorrect          100|100|  0    n/a    0 sectors   Old-age  Online 
 attribute-188               100| 96|  0    n/a    0           Old-age  Online 
 high-fly-writes             100|100|  0    n/a    0           Old-age  Online 
 airflow-temperature-celsius  58| 42| 45 FAIL_PAST 42C / 108F  Old-age  Online 
 g-sense-error-rate          100|100|  0    n/a    124         Old-age  Online 
 power-off-retract-count     100|100|  0    n/a    15          Old-age  Online 
 load-cycle-count              1|  1|  0    n/a    248327      Old-age  Online 
 temperature-celsius-2        42| 58|  0    n/a    42C / 108F  Old-age  Online 
 hardware-ecc-recovered       45| 38|  0    n/a    5854752     Old-age  Online 
 reallocated-event-count      89| 89| 30   good    14877766723263 Pre-fail Online 
 current-pending-sector      100|100|  0    n/a    0 sectors   Old-age  Online 
 offline-uncorrectable       100|100|  0    n/a    0 sectors   Old-age  Offline
 udma-crc-error-count        200|200|  0    n/a    0           Old-age  Online 
 attribute-254               100|100|  0    n/a    0           Old-age  Online 

磁盘健康/维护工具

在我工作的地方,我们已经成功地使用了以下2种工具。HDAT2 & 尖晶石.后者是一个商业工具,但前者,HDAT2,是一个开源项目。

下面是HDAT2的几个截图:

在执行这些操作时,您必须将系统重新引导到这两种状态,所以它是脱机的,但是它们都恢复了已经失败或开始出现故障的驱动器。HDAT2中的UI导航有点粗糙,我们通常使用默认的选择,尽量不要偏离那里太远。

票数 12
EN

Unix & Linux用户

发布于 2013-04-16 00:45:31

我想到了bonnie++:

因此,取决于您的盒的硬件配置:

代码语言:javascript
复制
bonnie++ -d /path/to/mounted/ssd -r your-system-ram-size-in-MB

示例:

代码语言:javascript
复制
# For a 32GB system with the SSD formatted and mounted at /mnt/mounted-ssd-001
bonnie++ -d /mnt/mounted-ssd-001 -r 32000

它应该给你的设备一个良好的压力测试。您也可以定制它。

注意,使用SSD时,当一个坏块发生时,它可能会被驱动器硬件自动重新映射,这取决于您正在使用的驱动器。此外,一项酷刑测试会使你的SSD的写作寿命大大缩短。所以,由你自己决定使用。

编辑:

添加关于SSD故障的说明,因为有人指出Bonnie++压力测试,但不跟踪错误。SSD(s)“重新映射坏块”的方式不同于硬盘驱动器重新映射的方式。它是如何进行的,完全取决于您拥有的SSD品牌/制造/型号:

  • 廉价的SSD(s)只是失败了,因为他们没有多余的容量来重新映射,或者因为他们没有办法隔离失败的闪存块。他们只会挂起来或者离线,不会再上网了。
  • 没有备用容量的中程SSD(s)可以生成Smartd警报,甚至可能在检测到故障块时生成OS级块设备错误。然而,当故障发生时,SSD的注册大小将发生变化。这可能导致错误,设备被操作系统脱机,或者导致设备本身挂起,需要拔出并重新插入才能再次识别。重新注册后,该设备的可用块大小将减少.
  • 具有备用容量的高端SSD(s)将在幕后重新映射坏块,并可能生成OS级别的警报/警告。当备用容量耗尽时,该设备可能会沿着中档SSD(s)的路线失效。

当SSD由于被隔离的坏块而调整自身大小时,如果驱动器的固件没有自动执行正确的更新,则可能需要执行以下操作才能恢复驱动器:

http://communities.intel.com/message/145676

除非应力测试和错误测井工具是专门设计的SSD(s),在心里,你只是在使用该设备的寿命。

编辑:

基于以上答案的信息,建议要么用更好的电缆替换电缆,要么更换驱动器(RMA/授权者替换),因为这种OS文件系统级别的错误是不正常的。

此外,如果您的驱动器支持它,您可以增加为处理错误预留的空间:

http://www.thomas-krenn.com/en/wiki/SSD_超额供应_使用_赫德帕姆

票数 6
EN

Unix & Linux用户

发布于 2014-11-25 14:55:24

我知道这已经有一年多的历史了,但是为了将来阅读这篇文章的人的利益,我希望你所需要的软件(D)还不存在于惠普实验室之外:

“了解SSD在电源故障下的鲁棒性”https://www.usenix.org/system/files/conference/fast13/fast13-final80.pdf

将电源故障注入替换为可选择的事件(或者在检测间歇性固件错误的情况下,不使用任何事件),而这个软件似乎会检测到它。不幸的是,我不认为有其他选择,否则惠普大概不会自己写东西。

这是一个遗憾,因为我还需要这样的东西来证明虚拟环境中的问题;我怀疑提交的写并没有真正进入物理磁盘。能够像这样对存储堆栈进行压力测试将是很棒的,而不仅仅是SSD。我还没有找到合适的东西。

票数 3
EN
页面原文内容由Unix & Linux提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://unix.stackexchange.com/questions/72563

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档