文章/答案/技术大牛

发布

社区首页 >问答首页 >当出现小SAN网络问题时，SBD会杀死两个集群节点。

问当出现小SAN网络问题时，SBD会杀死两个集群节点。
EN

Server Fault用户

提问于 2012-06-05 10:34:10

回答 1查看 761关注 0票数 2

我在一个开放的集群中遇到了stonith SBD的问题。

背景:主动/被动集群有两个节点，node1和node2。它们被配置为向用户提供NFS服务。为了避免分裂大脑的问题，它们都被配置为使用SBD。SBD正在使用通过多径光纤通道网络向主机提供的两个1MB磁盘。

如果SAN网络发生了什么事情，那么问题就开始了。例如，今天，一个锦绣交换机重新启动，两个节点丢失了每个磁盘的4条路径中的2条，导致两个节点自杀和重新启动。当然，这是非常不可取的，因为( a)有剩下的路径( b)即使开关关闭10-20秒，两个节点的重新启动周期将花费5-10分钟，所有NFS锁都会丢失。

我试着增加SBD超时值( 10sec+值，在末尾附加转储)，但是“警告:延迟:4 S的活性没有超过3 S的阈值”暗示某些东西不像我所期望的那样起作用。

以下是我想知道的：( a)当有两个路径可用时，SBD是否工作，就像它应该杀死节点一样？( b)如果没有，附加的multipath.conf文件是否正确？我们使用的存储控制器是IBM (IBM 2145)，是否应该对其进行任何特定的配置？(在multipath.conf.defaults中) c)我应该如何增加SBD中的超时

攻击: Multipath.conf和sbd dump (http://hpaste.org/69537)

storage-area-network

cluster

high-availability

failover

openais

回答 1

Server Fault用户

发布于 2013-12-19 17:36:17

您需要检查各个层：

1: hba驱动程序参数

modinfo <module_name>

2:多路径超时和以特殊方式配置参数no_path_retry = fail

multipath -v3

从你的sbd转储中我看到了“监视超时10"，我认为多路径超时是不够的

模式应该采用以下方式(快速而不进行任何重试)：

failed hba(report the down)-> linux scsi says (disks on that path are down) -> multipath says that disk is failed i don't retry there any io request and start to work the no failed path.

但是，如果参数的默认值是默认的，则来自sbd进程的io请求仍然处于挂起状态。

票数 0

页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://serverfault.com/questions/395656

复制

相似问题

问当出现小SAN网络问题时，SBD会杀死两个集群节点。
EN

回答 1

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当出现小SAN网络问题时，SBD会杀死两个集群节点。EN

回答 1

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问当出现小SAN网络问题时，SBD会杀死两个集群节点。
EN