我有一个ubuntu14.04运行在计算引擎F1-微实例。每隔几周就会有一次服务器挂起,因为有大量的IO读取。
当它发生的时候我不能用SSH连接。
这台服务器以前每天挂在一个特定的时间,我发现它是apt的自动更新。
现在,自动更新配置是:
$/etc/apt/apt.conf.d# cat 10periodic
APT::Periodic::Update-Package-Lists "1";
APT::Periodic::Download-Upgradeable-Packages "0";
APT::Periodic::AutocleanInterval "1";
$/etc/apt/apt.conf.d# cat 20auto-upgrades
APT::Periodic::Update-Package-Lists "0";
APT::Periodic::Unattended-Upgrade "0";是否有任何方法监视和检测导致IO突发的原因,即使SSH无法连接?
发布于 2019-09-26 15:15:02
云控制台为GCE实例提供了基本的IO监视(您已经在屏幕截图中看到了它)。但是,也可以通过使用堆栈驱动程序监控代理来提供更高级的监视,这是计算机中的一个过程,它收集不同的度量并将它们发送到堆栈驱动程序监控。
这种方法的另一个优点是,它可以与斯塔克驱动报警器一起使用,让您知道什么时候事情会以特定的度量进行下去。但是,一个缺点可能是您的系统中收集度量的代理的资源开销,特别是考虑到机器大小。
或者,您可以使用Sysstats套房通过sar (和亲戚)使用简单的CronJob收集计算机中的度量。
唯一的缺点是,在默认情况下,度量信息保存在同一台机器中,因此它可能更像是死后数据,而不是预防性数据。
最后,没有说明在您的机器中正在运行的是什么,但是如果可能的话,您最好考虑另一个机器大小,因为您的工作负载不是由资源约束的。
https://serverfault.com/questions/985697
复制相似问题