文章/答案/技术大牛

发布

社区首页 >问答首页 >什么会导致平均负荷10-30 %(而不是10-30%)？

问什么会导致平均负荷10-30 %(而不是10-30%)？
EN

Server Fault用户

提问于 2013-01-14 06:33:02

回答 1查看 355关注 0票数 1

可能重复: 如何理解linux服务器中内存的使用和平均负载

我不确定这是否会更好地命名为“为什么Nagios需要监视达到30的负载”。

情境:我正在为我们的网络设置Nagios，并且已经达到了在*nix框上设置NRPE的阶段。我已经(从纸上)初步了解到我想在哪里设置通知。对于一个特定的服务器，例如:1分钟: 90%警告，100% 5分钟暴击: 80%警告，90% 15分钟暴击: 60%警告，70%暴击。

服务器运行两个虚拟cpu，所以我计划使用-r参数来获得每个cpu的结果(是的，我知道这不是每个cpu，这是所有cpu的负载除以它们的数量，我对此表示满意)。

因此，当我看到NRPE配置文件上的默认值时，我已经完全准备好设置它了：

command[check_load]=/usr/lib/nagios/plugins/check_load -w 15,10,5 -c 30,25,20

这让我很不爽。我开始怀疑我是否真的理解负载平均值。我看到没有使用-r参数，所以负载平均值高于1是正常的，但是这是否意味着30 cpu系统的默认情况呢？我看到了这个问题，答案建议使用cpu数 * 10作为关键的5分钟通知(可能一分钟？)它进一步支持使用比我计划的更高的值。我的意思是，在没有看到违约的情况下，我会去

command[check_load]=/usr/lib/nagios/plugins/check_load -r -w 0.9,0.8,0.6 -c 1.0,0.9,0.7

但现在我很怀疑。我知道互联网上没有人能告诉我正确的价值观，我也不期望任何人会告诉我，如果有人能告诉我，我是否完全误解了负载，是否需要重新开始我的有用价值的调查工作，我将非常感激。至于它的价值，我得到的这些值仅仅是基于在过去6个月中每隔一次在所讨论的服务器上运行top。通常，它位于.4 / cpu (.8)和.55 / cpu (1.1)之间，时间为1分钟。

nagios

ubuntu-10.04

回答 1

Server Fault用户

发布于 2013-01-14 11:24:37

原始负载平均值只是数字，而不是任何绝对的百分比。负载平均和CPU利用率(通常以百分比表示)不是一回事。你应该监控这两种情况。

负载平均(至少在Linux上)的大致描述是“可以运行的进程数量”，它非常依赖于您的系统所做的工作。经验法则是每个CPU有一个负载单元是“繁忙”的，这解释了check_load -r参数。高I/O和短暂的进程确实会把这件事搞砸。你可以在其他地方找到更好的描述。

要回答您的问题:30个进程或线程可能导致30的负载，这些进程或线程都已准备好运行CPU，没有睡眠/轮询。

在运行top和感受负载方面做得不错，您应该从这些数字开始，并随着时间的推移对这些数字进行调优，以尽量减少错误警报，不过我建议将关键阈值提高一倍。

对于典型的服务器工作负载，nrpe.cfg示例值太高。我的猜测是，它们足够高，不会导致"NRPE告诉我的me负载平均值一直都太高“的问题。奇怪的是，check_load本身有0,0,0，0和0,0,0的默认值。

票数 0

页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://serverfault.com/questions/467771

复制

相似问题

问什么会导致平均负荷10-30 %(而不是10-30%)？
EN

回答 1

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么会导致平均负荷10-30 %(而不是10-30%)？EN

回答 1

Server Fault用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么会导致平均负荷10-30 %(而不是10-30%)？
EN