我使用的是OmniOS,它基于Illumos。
我有一个由两个SSD组成的ZFS池,它们是镜像的;这个池(称为data )将其%b报告为100;下面是iostat -xn:
r/s w/s kr/s kw/s wait actv wsvc_t asvc_t %w %b device
0.0 8.0 0.0 61.5 8.7 4.5 1092.6 556.8 39 100 data不幸的是,实际上并没有太多的吞吐量;iotop每秒报告23552字节。
我还运行了iostat -E,它报告了相当多的Transport Errors;我们更改了端口,他们就离开了。
我认为驱动器可能有问题;智能报告没有问题;我运行了多个smartctl -t short和smartctl -t long;没有报告问题。
我运行了fmadm faulty,它报告了以下内容:
--------------- ------------------------------------ -------------- ---------
TIME EVENT-ID MSG-ID SEVERITY
--------------- ------------------------------------ -------------- ---------
Jun 01 18:34:01 5fdf0c4c-5627-ccaa-d41e-fc5b2d282ab2 ZFS-8000-D3 Major
Host : sys1
Platform : xxxx-xxxx Chassis_id : xxxxxxx
Product_sn :
Fault class : fault.fs.zfs.device
Affects : zfs://pool=data/vdev=cad34c3e3be42919
faulted but still in service
Problem in : zfs://pool=data/vdev=cad34c3e3be42919
faulted but still in service
Description : A ZFS device failed. Refer to http://illumos.org/msg/ZFS-8000-D3
for more information.
Response : No automated response will occur.
Impact : Fault tolerance of the pool may be compromised.
Action : Run 'zpool status -x' and replace the bad device.就像它暗示我运行了zpool status -x,它报告了all pools are healthy。
我运行了一些DTraces,发现所有IO活动都来自<none> (用于文件);这是元数据;因此实际上没有任何文件IO正在进行。
当我运行kstat -p zone_vfs时,它报告如下:
zone_vfs:0:global:100ms_ops 21412
zone_vfs:0:global:10ms_ops 95554
zone_vfs:0:global:10s_ops 1639
zone_vfs:0:global:1s_ops 20752
zone_vfs:0:global:class zone_vfs
zone_vfs:0:global:crtime 0
zone_vfs:0:global:delay_cnt 0
zone_vfs:0:global:delay_time 0
zone_vfs:0:global:nread 69700628762
zone_vfs:0:global:nwritten 42450222087
zone_vfs:0:global:reads 14837387
zone_vfs:0:global:rlentime 229340224122
zone_vfs:0:global:rtime 202749379182
zone_vfs:0:global:snaptime 168018.106250637
zone_vfs:0:global:wlentime 153502283827640
zone_vfs:0:global:writes 2599025
zone_vfs:0:global:wtime 113171882481275
zone_vfs:0:global:zonename global高含量的1s_ops和10s_ops是非常值得关注的。
我想那是控制器,但我不能肯定,有人有什么想法吗?或者我在哪里能得到更多的信息?
发布于 2015-06-03 21:54:27
data池是一个lofi加密的ZFS容器;这就是问题所在。
我能够确认这是洛菲的“虚拟”控制器的性能问题,因为以下原因:
data控制器报告100%的利用率,而实际控制器几乎没有。这里的问题是lofi,而不是磁盘控制器。
https://unix.stackexchange.com/questions/207364
复制相似问题