首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >诊断集群软件的病理行为

诊断集群软件的病理行为
EN

Stack Overflow用户
提问于 2010-08-10 14:27:31
回答 3查看 90关注 0票数 1

我在一个小集群上使用一种负载均衡器,它能够在零持续时间请求上达到>2000rps (TI.那些由工作节点立即满足的节点)。但是,一旦请求停止为零持续时间,甚至开始花费1ms,性能就会立即下降10倍以上。在两个方向上传输的数据是相同的,大小约为2kb。这肯定与集群饱和或网络吞吐量无关,因为200rps的1ms请求是一个非常小的负载,而网络是10Gbit。此外,负载均衡器和工作节点上的CPU负载都只有2-5%。

我想知道这是否可能与操作系统调度程序或操作系统网络堆栈的某些病态行为有关(TI.对于非常短的交互,有一些特殊情况下的行为)。

我该如何诊断原因呢?要看哪些性能计数器?使用什么工具或方法?

(为了防止有人简单地知道我的特定问题的答案,我说的是MS Server2008R2的"WCF Broker",它运行在Windows Server2008Hyper-V的R2上)

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2010-08-16 17:05:12

事实证明,这是一个完全与网络无关的问题,与HPC Server的调度机制的特性有关。我通过在WCF服务配置文件的loadBalancing部分将配置选项"serviceRequestPrefetchCount“调整为0解决了这个问题。

票数 1
EN

Stack Overflow用户

发布于 2010-08-16 08:58:18

您可以做的一件事是使用ETW跟踪来尝试并了解WCF作业运行时节点正在做什么。在HPC服务器上,我有时会clusrun xperf来收集所有或特定节点上的跟踪。有许多工具可用于分析ETW跟踪,包括xperf本身。我没有使用HPC SOA ( WCF )做过任何认真的工作,但我确实编写了一个简单的WCF raytracer应用程序,然后使用xperf在几个节点上分析它。

票数 1
EN

Stack Overflow用户

发布于 2010-08-12 02:57:07

我假设有一些共享资源,并且有某种锁定系统?锁定是一个瓶颈吗?如果不看系统就很难猜到。

你有办法对工人进行侧写吗?他们把大部分时间花在什么上,特别是在快与慢的情况下?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3446561

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档