首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >当出现小SAN网络问题时,SBD会杀死两个集群节点。

当出现小SAN网络问题时,SBD会杀死两个集群节点。
EN

Server Fault用户
提问于 2012-06-05 10:34:10
回答 1查看 761关注 0票数 2

我在一个开放的集群中遇到了stonith SBD的问题。

背景:主动/被动集群有两个节点,node1和node2。它们被配置为向用户提供NFS服务。为了避免分裂大脑的问题,它们都被配置为使用SBD。SBD正在使用通过多径光纤通道网络向主机提供的两个1MB磁盘。

如果SAN网络发生了什么事情,那么问题就开始了。例如,今天,一个锦绣交换机重新启动,两个节点丢失了每个磁盘的4条路径中的2条,导致两个节点自杀和重新启动。当然,这是非常不可取的,因为( a)有剩下的路径( b)即使开关关闭10-20秒,两个节点的重新启动周期将花费5-10分钟,所有NFS锁都会丢失。

我试着增加SBD超时值( 10sec+值,在末尾附加转储),但是“警告:延迟:4 S的活性没有超过3 S的阈值”暗示某些东西不像我所期望的那样起作用。

以下是我想知道的:( a)当有两个路径可用时,SBD是否工作,就像它应该杀死节点一样?( b)如果没有,附加的multipath.conf文件是否正确?我们使用的存储控制器是IBM (IBM 2145),是否应该对其进行任何特定的配置?(在multipath.conf.defaults中) c)我应该如何增加SBD中的超时

攻击: Multipath.conf和sbd dump (http://hpaste.org/69537)

EN

回答 1

Server Fault用户

发布于 2013-12-19 17:36:17

您需要检查各个层:

1: hba驱动程序参数

代码语言:javascript
复制
modinfo <module_name>

2:多路径超时和以特殊方式配置参数no_path_retry = fail

代码语言:javascript
复制
multipath -v3

从你的sbd转储中我看到了“监视超时10",我认为多路径超时是不够的

模式应该采用以下方式(快速而不进行任何重试):

代码语言:javascript
复制
failed hba(report the down)-> linux scsi says (disks on that path are down) -> multipath says that disk is failed i don't retry there any io request and start to work the no failed path.

但是,如果参数的默认值是默认的,则来自sbd进程的io请求仍然处于挂起状态。

票数 0
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/395656

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档