我正面临着一个奇怪的事件,在这种情况下,我的两个nginx员工在随机数天后突然得到了100% CPU使用量的堆栈,在相同的网络流量下,他们在其他日子里表现良好。
它提供每秒5个并发请求的小流量,我的nginx工作者的配置设置如下:
user www-data;
worker_processes auto;
worker_cpu_affinity auto;
worker_rlimit_nofile 100000;
pid /run/nginx.pid;
pcre_jit on;
events
{
multi_accept on;
worker_connections 2048;
accept_mutex on;
use epoll;
}无论我将进程更改为auto还是静态的(我已经尝试过1),我在6天后就会得到100%的开始。下面是我当前的htop:屏幕截图的屏幕截图
如果我重新启动nginx服务,负载将恢复正常。5-6天后,它将再次达到100%。
我已经尝试过像ngxtop这样的设计工具,但是我无法确定加载的真正原因,但只是验证这不是从网站来源发生的。
我还重新启动了php7.3-fpm,而nginx的CPU使用率仍然是100%,这意味着其他事情正在出错。
我不知道在这种情况下有任何调试工具,如果你能指导我正确的工具来调试它,我会很感激。
有用的信息:
我正在使用WordOps现成的堆栈脚本。Nginx的版本为1.14.2
发布于 2019-05-05 11:46:38
在Linux上,很容易准确地分析CPU上的代码。
安装内核和应用程序(nginx)的调试符号,这样您就有了可读的函数名。
运行perf top以查看CPU上的顶部符号。perf_事件引用
使用perf或bcc生成火焰图可视化。
用几个有用的工具检查基本使用情况。或者看网数据做同样的事情。
uptime
dmesg | tail
vmstat 1
mpstat -P ALL 1
pidstat 1
iostat -xz 1
free -m
sar -n DEV 1
sar -n TCP,ETCP 1
top然后,困难的部分:确定是什么原因。可以是应用程序代码(PHP?)可以是web服务器(nginx),可以是OS调优(Linux)。熟悉整个堆栈以及它正在做什么。
https://serverfault.com/questions/965868
复制相似问题