我们已经部署在两个Windows2003Windows2003x64服务器上的分布式缓存软件(具体来说是NCache)。该软件配置为运行多个缓存,全部以“复制”模式运行(这是一种典型的主动-被动故障转移群集--即客户端与一台服务器对话,该服务器将所有数据复制到第二台机器,以便如果第一台计算机脱机,第二台计算机将接管。注意,这不是Windows集群--所有复制和故障转移都由NCache处理)。
几个月来,一切正常,但几周前,我们开始在NCache日志中看到与复制相关的异常。例外情况每隔几天发生一次,似乎是不可预测的。NCache支持基本上是“检查您的网络”。我们做到了。我们发现并解决了一个问题(细节太长,无法解释,主要是第二个服务器上的网络驱动程序和连接到的交换机都报告了大量的网络冲突)。
那是一周前的事了。网络修复后,异常就消失了,我们认为一切正常。但是今天我们又得到了完全相同的复制异常。唯一的区别是,无论是盒子上的网络驱动程序,还是交换机上的网络驱动程序,都不会报告任何错误。我看到了监视Windows 2003服务器之间的网络下降问题,但不要认为我们可以在这些盒子上运行wireshark --它们上的网络流量在白天平均约为100 just,而且由于都是NCache流量,所以在等待问题发生的过程中捕捉所有这些信息是不现实的。我们还能做些什么来确定它是否仍然是网络呢?
发布于 2009-10-30 01:09:33
网络故障排除可能很困难,找出网络问题的根本原因需要做大量的工作。如果无法在服务器上安装和运行Wireshark,则可以将其安装在另一台计算机上,并设置您的交换机(如果支持它),将服务器切换端口镜像到Wireshark计算机连接到的端口。传输服务器交换机端口的每个数据包的副本将复制到此端口。您可以配置Wireshark,将捕获数据保存到一个设置的间隔(时间或大小)的多个文件中,并且可以将其配置为限制捕获的每个数据包的数量。您不太可能需要捕获每个数据包的全部以查看发生了什么,您可能只需要捕获足够多的数据包来查看第1层到第3层发生了什么。
不要忽视再看物理层。清除交换机上的计数器,然后在出现问题时检查开关端口是否有冲突、错误、掉线等。查看相关交换机端口的使用情况,以及交换机的CPU和内存利用率。
还要查看每个服务器中NIC的perfmon计数器,特别是出站队列长度、数据包出站错误和数据包接收错误计数器。
https://serverfault.com/questions/79720
复制相似问题