首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么会导致平均负荷10-30 %(而不是10-30%)?

什么会导致平均负荷10-30 %(而不是10-30%)?
EN

Server Fault用户
提问于 2013-01-14 06:33:02
回答 1查看 355关注 0票数 1

可能重复: 如何理解linux服务器中内存的使用和平均负载

我不确定这是否会更好地命名为“为什么Nagios需要监视达到30的负载”。

情境:我正在为我们的网络设置Nagios,并且已经达到了在*nix框上设置NRPE的阶段。我已经(从纸上)初步了解到我想在哪里设置通知。对于一个特定的服务器,例如:1分钟: 90%警告,100% 5分钟暴击: 80%警告,90% 15分钟暴击: 60%警告,70%暴击。

服务器运行两个虚拟cpu,所以我计划使用-r参数来获得每个cpu的结果(是的,我知道这不是每个cpu,这是所有cpu的负载除以它们的数量,我对此表示满意)。

因此,当我看到NRPE配置文件上的默认值时,我已经完全准备好设置它了:

代码语言:javascript
复制
command[check_load]=/usr/lib/nagios/plugins/check_load -w 15,10,5 -c 30,25,20

这让我很不爽。我开始怀疑我是否真的理解负载平均值。我看到没有使用-r参数,所以负载平均值高于1是正常的,但是这是否意味着30 cpu系统的默认情况呢?我看到了这个问题,答案建议使用cpu数 * 10作为关键的5分钟通知(可能一分钟?)它进一步支持使用比我计划的更高的值。我的意思是,在没有看到违约的情况下,我会去

代码语言:javascript
复制
command[check_load]=/usr/lib/nagios/plugins/check_load -r -w 0.9,0.8,0.6 -c 1.0,0.9,0.7

但现在我很怀疑。我知道互联网上没有人能告诉我正确的价值观,我也不期望任何人会告诉我,如果有人能告诉我,我是否完全误解了负载,是否需要重新开始我的有用价值的调查工作,我将非常感激。至于它的价值,我得到的这些值仅仅是基于在过去6个月中每隔一次在所讨论的服务器上运行top。通常,它位于.4 / cpu (.8)和.55 / cpu (1.1)之间,时间为1分钟。

EN

回答 1

Server Fault用户

发布于 2013-01-14 11:24:37

原始负载平均值只是数字,而不是任何绝对的百分比。负载平均和CPU利用率(通常以百分比表示)不是一回事。你应该监控这两种情况。

负载平均(至少在Linux上)的大致描述是“可以运行的进程数量”,它非常依赖于您的系统所做的工作。经验法则是每个CPU有一个负载单元是“繁忙”的,这解释了check_load -r参数。高I/O和短暂的进程确实会把这件事搞砸。你可以在其他地方找到更好的描述。

要回答您的问题:30个进程或线程可能导致30的负载,这些进程或线程都已准备好运行CPU,没有睡眠/轮询。

在运行top和感受负载方面做得不错,您应该从这些数字开始,并随着时间的推移对这些数字进行调优,以尽量减少错误警报,不过我建议将关键阈值提高一倍。

对于典型的服务器工作负载,nrpe.cfg示例值太高。我的猜测是,它们足够高,不会导致"NRPE告诉我的me负载平均值一直都太高“的问题。奇怪的是,check_load本身有0,0,0,0和0,0,0的默认值。

票数 0
EN
页面原文内容由Server Fault提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://serverfault.com/questions/467771

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档