当我突然添加一些额外的设备(已经在nagios3上的12000+上)时,没有对12000+配置或OS (debian)文件系统进行任何更改
[1508925621] Warning: Return code of 127 for check of service 'PING' on host 'SOME-HOST.CISCO' was out of bounds. Make sure the plugin you're trying to run actually exists.
[1508925621] SERVICE ALERT: SOME-HOST.CISCO;PING;CRITICAL;HARD;3;(Return code of 127 is out of bounds - plugin may be missing)所有二进制文件都是可读/可执行的,自安装以来,所有这些都没有改变。
这种情况发生在所有这种类型的主机上,请记住,这是一个多年来一直在运行的设置,我唯一能想到的是在运行检查时遇到了某种操作系统限制,因为这是唯一改变的,更多的主机。我有max_concurrent_checks=1500很长时间了。(它是一个16核24 16物理服务器)
除了并发检查之外,我还运行
check_result_reaper_frequency=25 max_check_result_reaper_time=20
大型主机组配置如下:
define host{
use generic-cisco
host_name SOME_HOST.CISCO
alias SOME_HOST.CISCO
address xxx.xxx.xxx.xxx
check_command check-host-alive
hostgroups cisco_devices
}
define service{
use generic-service
host_name SOME_HOST.CISCO
service_description PING
check_command check_ping!200.0,20%!600.0,60%
normal_check_interval 10
retry_check_interval 5
}唯一能让它恢复到工作状态的方法就是去掉一些最近我添加的、停止和开始的主机,并希望它能正常运行。有什么建议吗?
发布于 2017-10-25 16:02:02
修正之处在于,尽管我遵循了许多其他性能建议,但我现在并没有禁用enable_environment_macros,也没有降低性能。很明显,问题在于操作系统正在努力使这些环境成为可用的主机数量。通过这里发现
我喜欢一个好的nagios面膜。
https://serverfault.com/questions/880179
复制相似问题