首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >NFS发行带来了整个vSphere ESX产业。

NFS发行带来了整个vSphere ESX产业。
EN

Server Fault用户
提问于 2011-11-30 11:11:36
回答 1查看 4.3K关注 0票数 1

今天上午,我遇到了一个奇怪的问题,一个NFS问题似乎已经摧毁了托管在一个小型vSphere 5.0地产上的大多数VM。

基础设施本身是4倍IBM刀片,运行大约20个VM。存储由一个带有运行Solaris 11的附加X1600底盘的HP D2700数组提供。其中有两个存储池是通过NFS公开的,用于存储VM文件,还有一些iSCSI LUN用于MSCS共享磁盘。通常情况下,这是相当稳定的,但我理解让一个X1600来完成所有的存储缺乏弹性。

今天早上,在每个ESX主机的日志中,大约在格林尼治时间0521时,我看到了很多这样的条目:

代码语言:javascript
复制
2011-11-30T05:21:54.161Z cpu2:2050)NFSLock: 608: Stop accessing fd 0x41000a4cf9a8  3
2011-11-30T05:21:54.161Z cpu2:2050)NFSLock: 608: Stop accessing fd 0x41000a4dc9e8  3
2011-11-30T05:21:54.161Z cpu2:2050)NFSLock: 608: Stop accessing fd 0x41000a4d3fa8  3
2011-11-30T05:21:54.161Z cpu2:2050)NFSLock: 608: Stop accessing fd 0x41000a4de0a8  3
[....]
2011-11-30T06:16:07.042Z cpu0:2058)WARNING: NFS: 283: Lost connection to the server 10.13.111.197 mount point /sastank/VMStorage, mounted as f0342e1c-19be66b5-0000-000000000000 ("SAStank")
2011-11-30T06:17:01.459Z cpu2:4011)NFS: 292: Restored connection to the server 10.13.111.197 mount point /sastank/VMStorage, mounted as f0342e1c-19be66b5-0000-000000000000 ("SAStank")
2011-11-30T06:25:17.887Z cpu3:2051)NFSLock: 608: Stop accessing fd 0x41000a4c2b28  3
2011-11-30T06:27:16.063Z cpu3:4011)NFSLock: 568: Start accessing fd 0x41000a4d8928 again
2011-11-30T06:35:30.827Z cpu1:2058)WARNING: NFS: 283: Lost connection to the server 10.13.111.197 mount point /tank/ISO, mounted as 5acdbb3e-410e56e3-0000-000000000000 ("ISO (1)")
2011-11-30T06:36:37.953Z cpu6:2054)NFS: 292: Restored connection to the server 10.13.111.197 mount point /tank/ISO, mounted as 5acdbb3e-410e56e3-0000-000000000000 ("ISO (1)")
2011-11-30T06:40:08.242Z cpu6:2054)NFSLock: 608: Stop accessing fd 0x41000a4c3e68  3
2011-11-30T06:40:34.647Z cpu3:2051)NFSLock: 568: Start accessing fd 0x41000a4d8928 again
2011-11-30T06:44:42.663Z cpu1:2058)WARNING: NFS: 283: Lost connection to the server 10.13.111.197 mount point /sastank/VMStorage, mounted as f0342e1c-19be66b5-0000-000000000000 ("SAStank")
2011-11-30T06:44:53.973Z cpu0:4011)NFS: 292: Restored connection to the server 10.13.111.197 mount point /sastank/VMStorage, mounted as f0342e1c-19be66b5-0000-000000000000 ("SAStank")
2011-11-30T06:51:28.296Z cpu5:2058)NFSLock: 608: Stop accessing fd 0x41000ae3c528  3
2011-11-30T06:51:44.024Z cpu4:2052)NFSLock: 568: Start accessing fd 0x41000ae3b8e8 again
2011-11-30T06:56:30.758Z cpu4:2058)WARNING: NFS: 283: Lost connection to the server 10.13.111.197 mount point /sastank/VMStorage, mounted as f0342e1c-19be66b5-0000-000000000000 ("SAStank")
2011-11-30T06:56:53.389Z cpu7:2055)NFS: 292: Restored connection to the server 10.13.111.197 mount point /sastank/VMStorage, mounted as f0342e1c-19be66b5-0000-000000000000 ("SAStank")
2011-11-30T07:01:50.350Z cpu6:2054)ScsiDeviceIO: 2316: Cmd(0x41240072bc80) 0x12, CmdSN 0x9803 to dev "naa.600508e000000000505c16815a36c50d" failed H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x24 0x0.
2011-11-30T07:03:48.449Z cpu3:2051)NFSLock: 608: Stop accessing fd 0x41000ae46b68  3
2011-11-30T07:03:57.318Z cpu4:4009)NFSLock: 568: Start accessing fd 0x41000ae48228 again

(我已经将一个主机的完整转储放在pastebin:http://pastebin.com/Vn60wgTt上)

当我早上9点到办公室时,我看到了各种故障和警报,并排除了问题。事实证明,几乎所有的VM都是不可访问的,ESX主机或者将每个VM描述为“关机”、“打开电源”或“不可用”。被描述为“启动”的VM在任何方面都无法到达或响应pings,所以这可能是谎言。

在X1600上绝对没有任何错误的迹象,开关上也没有显示任何连接丢失的迹象。我只能通过重新启动ESX主机来解决这个问题。

我有几个问题:

  1. 到底发生了什么事?
  2. 如果这是一个暂时的NFS故障,为什么它会将ESX主机置于一种状态,从这种状态下重新启动是唯一的恢复?
  3. 在未来,当NFS服务器有点失控时,什么是增加一些弹性的最好方法呢?我一直在考虑明年的预算,并可能有预算购买另一个X 1600/D 2700/磁盘,相同的镜像磁盘设置会帮助自动减少这些类型的故障吗?

编辑(添加了要求的详细信息)

若要按要求进行扩展,请提供一些详细信息:

X1600的12x1TB磁盘以镜像对的形式集中在一起作为tank,而D2700 (连接到一个小型的SAS电缆)有12x300gb 10k的SAS磁盘,并以镜像对的形式集中在一起作为sastank

zpool status

代码语言:javascript
复制
  pool: rpool
 state: ONLINE
 scan: none requested
config:

        NAME        STATE     READ WRITE CKSUM
        rpool       ONLINE       0     0     0
          c7t0d0s0  ONLINE       0     0     0

errors: No known data errors

  pool: sastank
 state: ONLINE
 scan: scrub repaired 0 in 74h21m with 0 errors on Wed Nov 30 02:51:58 2011
config:

        NAME         STATE     READ WRITE CKSUM
        sastank      ONLINE       0     0     0
          mirror-0   ONLINE       0     0     0
            c7t14d0  ONLINE       0     0     0
            c7t15d0  ONLINE       0     0     0
          mirror-1   ONLINE       0     0     0
            c7t16d0  ONLINE       0     0     0
            c7t17d0  ONLINE       0     0     0
          mirror-2   ONLINE       0     0     0
            c7t18d0  ONLINE       0     0     0
            c7t19d0  ONLINE       0     0     0
          mirror-3   ONLINE       0     0     0
            c7t20d0  ONLINE       0     0     0
            c7t21d0  ONLINE       0     0     0
          mirror-4   ONLINE       0     0     0
            c7t22d0  ONLINE       0     0     0
            c7t23d0  ONLINE       0     0     0
          mirror-5   ONLINE       0     0     0
            c7t24d0  ONLINE       0     0     0
            c7t25d0  ONLINE       0     0     0

errors: No known data errors

  pool: tank
 state: ONLINE
 scan: scrub repaired 0 in 17h28m with 0 errors on Mon Nov 28 17:58:19 2011
config:

        NAME         STATE     READ WRITE CKSUM
        tank         ONLINE       0     0     0
          mirror-0   ONLINE       0     0     0
            c7t1d0   ONLINE       0     0     0
            c7t2d0   ONLINE       0     0     0
          mirror-1   ONLINE       0     0     0
            c7t3d0   ONLINE       0     0     0
            c7t4d0   ONLINE       0     0     0
          mirror-2   ONLINE       0     0     0
            c7t5d0   ONLINE       0     0     0
            c7t6d0   ONLINE       0     0     0
          mirror-3   ONLINE       0     0     0
            c7t8d0   ONLINE       0     0     0
            c7t9d0   ONLINE       0     0     0
          mirror-4   ONLINE       0     0     0
            c7t10d0  ONLINE       0     0     0
            c7t11d0  ONLINE       0     0     0
          mirror-5   ONLINE       0     0     0
            c7t12d0  ONLINE       0     0     0
            c7t13d0  ONLINE       0     0     0

errors: No known data errors

在NFS上为主数据存储公开的文件系统是sastank/VMStorage

zfs list

代码语言:javascript
复制
NAME                          USED  AVAIL  REFER  MOUNTPOINT
rpool                        45.1G  13.4G  92.5K  /rpool
rpool/ROOT                   2.28G  13.4G    31K  legacy
rpool/ROOT/solaris           2.28G  13.4G  2.19G  /
rpool/dump                   15.0G  13.4G  15.0G  -
rpool/export                 11.9G  13.4G    32K  /export
rpool/export/home            11.9G  13.4G    32K  /export/home
rpool/export/home/andrew     11.9G  13.4G  11.9G  /export/home/andrew
rpool/swap                   15.9G  29.2G   123M  -
sastank                      1.08T   536G    33K  /sastank
sastank/VMStorage            1.01T   536G  1.01T  /sastank/VMStorage
sastank/comstar              71.7G   536G    31K  /sastank/comstar
sastank/comstar/sql_tempdb   6.31G   536G  6.31G  -
sastank/comstar/sql_tx_data  65.4G   536G  65.4G  -
tank                         4.79T   578G    42K  /tank
tank/FTP                      269G   578G   269G  /tank/FTP
tank/ISO                     28.8G   578G  25.9G  /tank/ISO
tank/backupstage             2.64T   578G  2.49T  /tank/backupstage
tank/cifs                     301G   578G   297G  /tank/cifs
tank/comstar                 1.54T   578G    31K  /tank/comstar
tank/comstar/msdtc           1.07G   579G  32.8M  -
tank/comstar/quorum           577M   578G  47.9M  -
tank/comstar/sqldata         1.54T   886G   304G  -
tank/comstar/vsphere_lun     2.09G   580G  22.2M  -
tank/mcs-asset-repository    7.01M   578G  6.99M  /tank/mcs-asset-repository
tank/mscs-quorum               55K   578G    36K  /tank/mscs-quorum
tank/sccm                    16.1G   578G  12.8G  /tank/sccm

至于网络,X1600、叶片和交换机之间的所有连接都是LACP或Etherchannel键合2x1Gbit链路。交换机是一个单一的思科3750。

存储流量位于自己的VLAN上,VLAN与VM机器通信隔离。

EN

回答 1

Server Fault用户

发布于 2011-11-30 15:47:34

我觉得我们错过了重要的信息。请描述您的存储服务器。HP X1600基本上是一个ProLiant DL180 G6。您正在通过SAS布线连接外部HP D2700机箱来运行它。我假设此设置正在运行Solaris,并将ZFS卷分配给您的ESXi节点。有些地方可以从以下地方开始:

  • 您的z池/文件系统是如何配置的?
  • 由于X1600和D2700都有磁盘海湾,所以NFS存储池位于哪里(控制器问题)?
  • 在Solaris系统(zpool status -v输出)上有相应的错误吗?
  • 你的网络对于NFS的股票/流量有多大的弹性?你是亲密无间吗?
  • 您的存储网络是否与局域网通信量(VLAN,独立交换机)隔离?
  • 您是否使用ESXi (心跳、超时、缓冲区)来优化您的NFS最佳实践主机?
票数 1
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/336164

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档