首先,我最近接手了一个proxmox集群的管理,我以前没有管理过这个集群(我对集群管理完全陌生,但在linux上还不算太糟)。
pve-manager/5.1-46/ae8241d4 (running kernel: 4.13.13-6-pve)我有两个xen节点,它们在其中运行许多容器和VM。昨天,运行mysql数据库的Xen2上的一个容器停止响应。我能够通过ssh登录到容器,并试图重新启动mysql,结果收到了一个错误,因为它无法连接到mysql.sock。因此,我决定简单地关闭容器并启动它。我在proxmox中为容器选择了“关机”,然后它关闭了容器。然后单击“start”,其中记录了proxmox日志:
CT 110 - Start ERROR: command 'systemctl start pve-container@110' failed: exit code 1所以,我试过运行“系统启动”。通过ssh。这需要一段时间,然后我得到以下信息:
Job for pve-container@110.service failed because a timeout was exceeded.
See "systemctl status pve-container@110.service" and "journalctl -xe" for details.这是'systemctl状态.‘的输出:
● pve-container@110.service - PVE LXC Container: 110
Loaded: loaded (/lib/systemd/system/pve-container@.service; static; vendor preset: enabled)
Active: failed (Result: timeout) since Thu 2018-06-07 08:35:22 BST; 43s ago
Docs: man:lxc-start
man:lxc
man:pct
Process: 1603366 ExecStart=/usr/bin/lxc-start -n 110 (code=killed, signal=TERM)
Tasks: 1 (limit: 4915)
CGroup: /system.slice/system-pve\x2dcontainer.slice/pve-container@110.service
└─1532500 [lxc monitor] /var/lib/lxc 110
Jun 07 08:33:52 xen2 systemd[1]: Starting PVE LXC Container: 110...
Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Start operation timed out. Terminating.
Jun 07 08:35:22 xen2 systemd[1]: Failed to start PVE LXC Container: 110.
Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Unit entered failed state.
Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Failed with result 'timeout'.和“日志”:
Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Start operation timed out. Terminating.
Jun 07 08:35:22 xen2 systemd[1]: Failed to start PVE LXC Container: 110.
-- Subject: Unit pve-container@110.service has failed
-- Defined-By: systemd
--
-- Unit pve-container@110.service has failed.
--
-- The result is failed.
Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Unit entered failed state.
Jun 07 08:35:22 xen2 systemd[1]: pve-container@110.service: Failed with result 'timeout'.在第一次尝试重新启动容器后不久,整个xen2节点开始在所有VM/容器的一侧显示灰色问号,它们丢失了标签(参见屏幕快照):

尽管如此,xen2中的所有其他VM/容器仍然运行良好。因此,我决定运行以下命令,看看会发生什么:
服务pvedaemon重新启动(没有什么变化)服务pveproxy重新启动(任何更改)服务pvestatd重新启动(VM开始显示proxmox中的名称(但不显示容器),但这只持续了10-15分钟)
我对升级或重新启动整个xen节点犹豫不决,原因是配置的未知方面,以及前面可能存在哪些潜在的缺陷,以及它的业务至少需要运行一些东西。此外,我已经运行了/var/log/syslog,没有看到任何显示容器崩溃原因的信息。
理想情况下,我想实现:确定为什么数据库容器崩溃(110)成功地启动数据库容器,再次确定为什么xen2节点没有向UI报告数据,因为它是VM/Containers为节点修复UI中的报告数据,请理解我对proxmox并不熟悉,但是我确实了解我对linux的了解。
感谢您为解决此问题提供的任何提示/知识。如果你想让我分享任何其他信息,请告诉我。
干杯,大卫
发布于 2019-07-17 08:15:19
我还患有类似症状的问题(所有节点、VM和CTs都进入“未知”状态)。使用命令行似乎一切都很好,所以这比任何事情都麻烦,因为这意味着我必须迁移所有东西并重新启动每个节点,然后才能再次使用web。最后,我发现在每个节点上重新启动以下服务(如下所示)解决了问题:
systemctl restart pvedaemon
systemctl restart pveproxy
systemctl restart pvestatd如果您计划使用web,我建议将它们放在脚本中,并使用./script.sh &运行,因为这样会断开控制台会话的连接。
发布于 2020-06-08 14:50:04
我在ssh中运行以下命令来解决服务器上的相同问题,尽管我没有使用./script.sh。
systemctl restart pvedaemon
systemctl restart pveproxy
systemctl restart pvestatd发布于 2019-04-12 13:58:33
只是在同一个问题上绊倒了(一个集群节点只显示灰色问号,容器丢失了标签)。在我的例子中,这是在proxmox更新之后不久(从5.3到5.4)。在做了类似的操作之后,我终于发现我的sshd已经不在端口22上了。重新启动sshd后,虽然不能立即恢复,但大约需要15分钟左右。然后一切都好起来了。
https://serverfault.com/questions/915584
复制相似问题