运行在我的Ubuntu上的Nagios3偶尔会向我发送电子邮件报告,类似于:
Notification Type: PROBLEM
Service: Current Load
Host: localhost
Address: 127.0.0.1
State: CRITICAL
Date/Time: Mon May 22 00:14:54 CEST 2017
Additional Info:
**CRITICAL - load average: 3.57, 21.36, 15.40**(通常我会收到三封邮件,警告,批评,康复,一天两次,正常工作时间)
我如何调查哪个服务导致了这种情况,以及如何跟踪何时以及实际发生了什么?(我怀疑一些由Apache运营的网站,哪个网站?实际上是哪个网址?)
发布于 2017-05-23 09:58:05
您可以向您的服务添加一个事件处理程序,它将在每次服务进入非确定状态时执行一个脚本。
例如,您的脚本将能够存储来自顶级命令和netstat或其他工具(cat /proc/stat)的数据,这些工具显示了系统的使用情况。
发布于 2017-05-23 17:39:22
如果负载、内存或CPU导致问题,则可以配置恒压器实用程序来分析资源使用历史。
发布于 2017-05-28 16:31:16
我发现用包含LogFormat的自定义%D配置Apache是很有用的。这将记录处理每个请求所需的多少微秒。
由于以这种方式记录的持续时间包括服务器等待客户端的时间,因此找出哪些请求导致服务器上的高负载并不是一个完美的度量。但它仍将提供一个有用的信号,说明哪些URL可能会导致服务器上的高负载。
重要的是要记住,平均负荷是一个非常广泛的指标。知道你有一个问题是一个有用的指标,但它在弄清楚问题是什么和如何解决问题方面没有多大用处。特别是,它既包括CPU负载,也包括I/O负载,而数字本身并没有告诉您这两者中的哪一个是原因。
在高负载期间查看像top和iotop这样的工具的输出可以提供一些提示。
https://serverfault.com/questions/851715
复制相似问题