我在一个开放的集群中遇到了stonith SBD的问题。
背景:主动/被动集群有两个节点,node1和node2。它们被配置为向用户提供NFS服务。为了避免分裂大脑的问题,它们都被配置为使用SBD。SBD正在使用通过多径光纤通道网络向主机提供的两个1MB磁盘。
如果SAN网络发生了什么事情,那么问题就开始了。例如,今天,一个锦绣交换机重新启动,两个节点丢失了每个磁盘的4条路径中的2条,导致两个节点自杀和重新启动。当然,这是非常不可取的,因为( a)有剩下的路径( b)即使开关关闭10-20秒,两个节点的重新启动周期将花费5-10分钟,所有NFS锁都会丢失。
我试着增加SBD超时值( 10sec+值,在末尾附加转储),但是“警告:延迟:4 S的活性没有超过3 S的阈值”暗示某些东西不像我所期望的那样起作用。
以下是我想知道的:( a)当有两个路径可用时,SBD是否工作,就像它应该杀死节点一样?( b)如果没有,附加的multipath.conf文件是否正确?我们使用的存储控制器是IBM (IBM 2145),是否应该对其进行任何特定的配置?(在multipath.conf.defaults中) c)我应该如何增加SBD中的超时
攻击: Multipath.conf和sbd dump (http://hpaste.org/69537)
发布于 2013-12-19 17:36:17
您需要检查各个层:
1: hba驱动程序参数
modinfo <module_name>2:多路径超时和以特殊方式配置参数no_path_retry = fail
multipath -v3从你的sbd转储中我看到了“监视超时10",我认为多路径超时是不够的
模式应该采用以下方式(快速而不进行任何重试):
failed hba(report the down)-> linux scsi says (disks on that path are down) -> multipath says that disk is failed i don't retry there any io request and start to work the no failed path.但是,如果参数的默认值是默认的,则来自sbd进程的io请求仍然处于挂起状态。
https://serverfault.com/questions/395656
复制相似问题