首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >ZFS - L2ARC缓存设备故障的影响

ZFS - L2ARC缓存设备故障的影响
EN

Server Fault用户
提问于 2011-06-07 19:06:28
回答 3查看 7.6K关注 0票数 10

我有一个HP ProLiant DL380 G7服务器作为NexentaStor存储单元运行。服务器有36 an,2个LSI 9211-8i SAS控制器(没有SAS扩展器),2个SAS系统驱动器,12个SAS数据驱动器,一个热备用磁盘,一个Intel X25-M L2ARC缓存和一个DDRdrive PCI ZIL加速器。该系统为多个VMWare主机提供NFS服务。我还在数组上有大约90至100 90的重复数据。

我遇到过两次性能突然下降的情况,使得VM来宾和Nexenta /Web控制台无法访问,并且需要对数组进行完全重新启动才能恢复功能。在这两种情况下,是英特尔X-2500万L2ARC SSD失败或被“抵消”。NexentaStor未能在缓存失败时通知我,但是在(无响应的)控制台屏幕上可以看到常规的ZFS警报。

zpool status输出显示:

代码语言:javascript
复制
  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

这并没有触发Nexenta内部的任何警报。

我的印象是,L2ARC失败不会影响系统。但在这种情况下,肯定是罪魁祸首。我从未见过任何关于RAID L2ARC的建议。从服务器上完全删除坏的SSD使我重新运行,但我担心设备故障的影响(以及NexentaStor没有通知)。

编辑-现在L2ARC缓存应用程序的最佳选择是什么?

EN

回答 3

Server Fault用户

回答已采纳

发布于 2011-06-12 19:40:50

ZFS不执行磁盘I/O,ZFS下面的设备驱动程序执行磁盘I/O。如果设备不及时响应,或者像在这种情况下一样,干扰扩展程序上的所有其他设备,则对ZFS来说,它是不可见的故障。ZFS所看到的只是一个缓慢的I/O。

英特尔X-25M固件中存在一个漏洞,它会影响它们在重载时的行为,并可能导致复位风暴。这个问题影响到所有的OSes,不能在OS层解决。请与您的硬件供应商联系进行修复或补救。

如果L2ARC预期会满足读取,那么将在那里尝试读取。然后,ZFS依赖于底层驱动程序来报告错误。对于这种情况,驱动器继续重置和重试多达5分钟,然后声明I/O为失败,具体取决于驱动程序、设备和默认超时设置。只有在底层驱动程序将I/O声明为失败后,ZFS才会在池上重试。

NexentaStor的卷检查和磁盘检查运行程序寻找更多的错误信息,并通过电子邮件和故障记录提醒您。在3.1发行版中,磁盘检查运行程序已经得到改进,以帮助您特别注意SSD中的坏固件所显示的情况。

底线:你的硬件有问题,需要修理或更换。

票数 10
EN

Server Fault用户

发布于 2011-06-07 21:00:44

你在把X25-MSSD连接到背板上吗?有一个已知的问题是Nexenta和访问L2ARC的背板。您最好的选择是将SSD直接连接到主板上的SATA端口。确保它也被配置为使用AHCI。

如果您正在此服务器上运行任何关键任务,我将切换到SSD (比如X25-E或STEC SSD)。话虽如此,如果不是的话,你可能对X25-M没什么意见。

票数 3
EN

Server Fault用户

发布于 2011-06-23 23:20:17

Ed,有几种你可以使用,从相对合理的价格到相当昂贵。我更喜欢在所有情况下部署SAS SSD,并且在STEC和柔顺的情况下都做得很好。现在,这两家公司都提供了一个MLC驱动器,该驱动器将以具有L2ARC设备而闻名。还没有测试,但即将到来的是SSD提供的希捷,这是SLCSAS2.0,传言是“不贵”。请继续收看..。

-PB

票数 0
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/277966

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档