背景:我有一个由3个linux VM组成的集群。它们运行相同的配置,并通过谷歌的网络负载均衡器进行负载平衡。
最近,我注意到其中一台机器的负载在任何时候都明显高于其他机器。不是一个尖峰的CPU,只是2x-3x的负载平均一致。
对服务器的审计没有发现rootkit或恶意软件。流程列表几乎是相同的。内存使用量在所有机器上都是标称的。没有过度的交换。写入磁盘都是名义的。
从查看SQL编号来看,机器似乎在过去2周内在.1%中处理相同的通信量。
查看累积CPU时间(通过顶部),我发现mysql进程以及这台机器上其他长时间运行的进程似乎比其他两台机器多消耗了大约70%的CPU时间(所有这些进程都在两周前的一小时内重新启动)。这必须在3天内发生,因为CPU图表显示这台机器上的使用量比其他机器增加。
此外,我还注意到了通过错误日志连接到这个服务器的尖峰。它只发生过一次,但大约是CPU问题开始的时候。
通过云控制台关闭服务器几分钟似乎已经解决了这个问题--目前。
我目前的假设是,连接尖峰是由于实时迁移导致的崩溃造成的,而CPU使用率更高是因为新的管理程序配置方式不同--很可能是因为Intel的前瞻漏洞的修补程序。
有人能向我指出一个日志来显示服务器迁移,这样我就可以确认或者排除这个假设的活迁移部分了吗?
任何其他想法都将不胜感激。
发布于 2018-03-26 22:43:53
您可以从VM查询元数据服务器,以检查活动迁移是否即将进行,并提前得到一些通知(在事件发生前60秒)。
您应该查询maintenance-event属性,以找出活动迁移即将发生的时间。
此页提供了关于如何查询该属性的说明,以及一个示例Python,您可以在迁移的情况下修改该脚本以采取某些操作。
https://serverfault.com/questions/904693
复制相似问题