
一行命令安装,自然语言操控 vCenter/ESXi——从查库存、看告警到开关机、快照、迁移,全部用"说话"搞定。文末,附上了今天的运维实例
2025 年底,OpenClaw(原 Clawdbot)横空出世,迅速成为 GitHub 上最热门的开源项目之一,把"AI Agent 管理一切"的理念推到了风口浪尖。紧接着,Anthropic 的 Claude Code 推出了插件市场,Vercel 推出了 skills.sh 开放技能生态,Google 的 Gemini CLI、OpenAI 的 Codex CLI 也纷纷跟进——AI Agent 正在从"写代码的助手"变成"什么都能干的操作员"。
这股浪潮让我一直在想一个问题:
如果 AI Agent 能写代码、读文档、管项目,为什么不能管 VMware 虚拟化环境?
作为一个日常和 vCenter、ESXi 打交道的运维人,我每天重复着同样的动作——登录 vSphere Client,翻看告警,检查 VM 状态,手动开关机,偶尔做个快照或迁移。这些操作不复杂,但碎片化、重复、容易出错。
于是我做了一件事:写了一个 Skill,让 AI Agent 直接管理 VMware 环境。
它叫 VMware-AIops。
VMware-AIops 是一个开源的 AI 技能包,让你用自然语言管理 vCenter Server 和 ESXi 主机。
它不是运维平台,不是监控大屏,而是一层"翻译层"——把自然语言转化为 pyVmomi API 调用,把 vSphere 的状态转化为人话。
你:"帮我看看 ESXi 上有多少虚拟机"
AI:"当前 ESXi 上有 4 台虚拟机:
- Open-test (开机, 4核/16GB, IP: 192.168.60.74)
- vcsa (开机, 2核/14GB, IP: 192.168.60.16)
- vplc (关机, 2核/4GB)
- VMware vCenter Server (关机, 4核/20GB)"
你:"内存告警是什么原因?"
AI:"主机物理内存 63.7GB,4 台 VM 共分配 54GB(84.8%),
但实际使用仅 42.7%。告警是因为如果所有 VM 同时开机,
内存可能不够。目前不影响运行。"
你:"帮 ESXi 同步一下 NTP"
AI:"已配置 NTP 服务器 192.168.60.74,ntpd 已启动,
时间偏差从 81 秒校准到 0 秒。"
不用打开 vSphere Client,不用记命令,不用写脚本。说就行了。
想试试?一行命令安装:
npx skills add zw008/VMware-AIops
Gartner 连续多年将 AIOps(智能运维) 列为关键技术趋势——从告警降噪、日志分析到根因定位、自动修复,AI 正在渗透运维的每一个环节。
但现实是:大部分企业的运维工具链还停留在"仪表盘 + 告警邮件 + 手动处理"的阶段。
OpenClaw 的爆火验证了一件事:用户不想学新工具,他们想用自然语言和现有系统对话。
VMware-AIops 正是基于这个理念设计的:
Skill 是 AI Agent 的"技能包"——一个 Markdown 文件,告诉 Agent"你会什么、怎么做"。
当你执行 npx skills add zw008/VMware-AIops,Agent 就获得了管理 VMware 的能力。就像给一位经验丰富的助手递上操作手册,他立刻就能上手。
MCP(Model Context Protocol)是 Anthropic 提出的开放协议,让 AI 模型能够调用外部工具。VMware-AIops 同时提供了 MCP Server,可以注册到 Claude Desktop、Cursor、Smithery 等任何 MCP 客户端。
Skill 是给 Agent 的"知识",MCP 是给 Agent 的"手"。两者结合,Agent 既知道该做什么,又能真正执行。

"列出所有虚拟机"
"哪些主机的 CPU 超过 80%?"
"datastore 还剩多少空间?"
"有哪些集群,DRS 和 HA 分别什么状态?"
支持 VM、主机、数据存储、集群、网络的全量查询。
"有没有活跃告警?"
"最近 24 小时有什么异常事件?"
"硬件传感器有没有报警?"
"ntpd 服务在不在跑?"
覆盖 50+ 种事件类型:VM 故障、主机断连、存储异常、HA/DRS 事件、认证失败……
操作 | 说法示例 |
|---|---|
开机 | "把 test-vm 开起来" |
关机 | "优雅关闭 dev-server" |
创建 | "建一个 4核/8GB 的新虚拟机" |
删除 | "删掉那个废弃的 old-backup" |
快照 | "给 prod-db 打个升级前快照" |
克隆 | "克隆一份 template-ubuntu" |
迁移 | "把 web-server 迁移到 esxi-02" |
危险操作有双重确认机制——删除、关机、配置变更必须你连续确认两次,Agent 不会擅自操作。
内置 APScheduler 守护进程,每 15 分钟自动扫描所有目标的告警、事件和主机日志,匹配关键词(error, fail, critical, panic, timeout, corrupt),结果输出到 JSONL 日志,还能推送到 Slack、Discord 或任意 Webhook。
这是我在设计时最在意的一点。
密码统一存放在 ~/.vmware-aiops/.env 文件中,权限 600(仅所有者可读写)。模块导入时自动加载,运行时从环境变量读取。整个链路中,密码不会出现在:
ps 看不到)SKILL.md 中有明确的 NEVER/ALWAYS 规则,告诉 Agent:
SmartConnect() 硬编码密码ConnectionManager.from_config() 连接新用户不用看文档就能上手——SKILL.md 内置了 3 步引导流程:
config.yaml 是否存在 → 没有就引导创建.env 是否存在 → 没有就引导从模板复制这是 VMware-AIops 最独特的设计。同一套 Python 后端,适配了 9 种 AI 工具:
平台 | 配置格式 | 模型 |
|---|---|---|
Claude Code | SKILL.md (Plugin) | Claude |
Gemini CLI | GEMINI.md (Extension) | Gemini |
Codex CLI | SKILL.md + AGENTS.md | GPT |
Aider | AGENTS.md (Conventions) | 任意 / Ollama |
Continue | AGENTS.md (Rules) | 任意 / Ollama |
Trae IDE | project_rules.md | Claude/DeepSeek/豆包 |
Kimi Code | SKILL.md | Kimi |
MCP Server | FastMCP (stdio) | 任意 MCP 客户端 |
CLI | Typer | 无需 AI |
无论你用什么 AI 工具,都能用同样的能力管理 VMware。
甚至支持纯本地模型(Aider + Ollama + Qwen/DeepSeek),适合隔离网络或有数据合规要求的场景。
设计上兼容 vSphere 6.5 到 8.0 U3,pyVmomi 在 SOAP 握手阶段自动协商 API 版本,无需手动配置。已在 vSphere 8.0 环境中验证,同一套代码管理 7.0 和 8.0 混合环境毫无压力。

我自己的 Home Lab 就在用 VMware-AIops 管理——一台 ESXi 8.0 主机,挂了一个 vCenter Server 8.0.3,跑了 4 台 VM。
日常操作全部在终端里用自然语言完成:
效率提升体感:
操作 | 传统方式 | VMware-AIops |
|---|---|---|
查看全部 VM 状态 | 打开浏览器 → 登录 vSphere → 逐个点击 | 说一句话,2 秒出结果 |
排查告警原因 | 看告警 → 查指标 → 翻文档 → 分析 | Agent 自动关联数据并给出结论 |
配置 NTP | SSH → 编辑配置 → 重启服务 → 验证 | Agent 一条龙完成 |
创建快照 | 右键 → 快照管理 → 填表单 | "给 XX 打个快照" |
不是说 vSphere Client 不好用,而是很多操作根本不值得你打开浏览器。
VMware-AIops 不是要替代你的运维体系,而是做一个快捷入口——日常巡检、告警处理、变更操作在终端里随手完成,值班交接让 Agent 生成状态报告,CI/CD 通过 CLI 或 MCP 接入 Pipeline 实现自动化。
推荐方式(适用于所有 AI 工具):
npx skills add zw008/VMware-AIops
Claude Code 用户:
/plugin marketplace add zw008/VMware-AIops
/plugin install vmware-ops
配置只需两步:
# 1. 复制配置文件,填入你的 vCenter/ESXi 地址和用户名
cp config.example.yaml ~/.vmware-aiops/config.yaml
# 2. 复制密码模板,填入密码,锁定权限
cp .env.example ~/.vmware-aiops/.env
chmod 600 ~/.vmware-aiops/.env
然后就可以开始了。
OpenClaw 作为一个通用的 Agent 编排层,天然适合和 VMware-AIops 配合。几个有趣的场景:
场景 1:Telegram 里管 Home Lab
OpenClaw 连接 Telegram → 你发一条消息"ESXi 有告警吗?" → OpenClaw 调用 VMware-AIops 的 MCP Server → 返回告警列表。
场景 2:自动化巡检报告
OpenClaw 每天早上 8 点自动执行:查告警 → 查事件 → 查存储容量 → 生成巡检报告 → 发到 Slack/钉钉。
场景 3:跨系统联动
OpenClaw + VMware-AIops + GitHub Skill: "CI 构建完成后,自动克隆一个测试 VM,部署最新代码,跑完测试后删除 VM。"
场景 4:智能值班
OpenClaw 持久运行,监测 VMware 告警,根据严重级别自动决策:
注意:OpenClaw 生态存在已知安全风险,社区已报告多起安全事件,部分第三方 Skill 被发现含有恶意代码。在生产环境中使用时,请严格审核第三方 Skill 来源。VMware-AIops 不依赖 OpenClaw,可完全独立使用。
VMware-AIops 目前解决的是"单次操作"的问题——你说一句话,Agent 执行一个动作。但运维的真正痛点往往在于多步骤的自动化流程。
传统的自动化工具——Ansible Playbook、vRealize Orchestrator、Terraform——功能强大,但学习曲线陡峭。你需要学 YAML 编排语法、理解状态管理、调试复杂的依赖关系。一个简单的"升级前打快照 → 升级 → 验证 → 失败就回滚"流程,可能要写几十行编排代码。
下一个版本的方向是:用自然语言描述工作流,Agent 自动编排执行。
想象一下:
你:"每周五晚上 10 点,自动给所有生产 VM 打快照,保留最近 3 个,
超过的自动删除。如果存储空间低于 20%,跳过并通知我。"
Agent:自动理解意图 → 拆解为多步任务 → 定时执行 → 异常处理 → 通知
不需要写 Ansible Playbook,不需要配 Orchestrator,不需要编排 DAG。用人话描述需求,Agent 就是你的编排引擎。
这不是幻想——当 Skill 提供了足够的原子操作(查询、快照、删除、通知),Agent 有足够的推理能力理解意图和处理异常,自然语言驱动的自动化就是水到渠成的事。
后续计划整合的方向还包括:
这些想法还在打磨中,非常期待社区的参与和反馈。
VMware-AIops 是一个个人开源项目,MIT 协议。
我做这个项目的初衷很简单:运维不应该是重复劳动,AI Agent 已经足够聪明来帮我们处理这些事情了。
从 OpenClaw 的爆火到 Skill 生态的兴起,从 MCP 协议的普及到 AIOps 理念的落地——2026 年是 AI Agent 真正走进基础设施运维的元年。
VMware-AIops 只是一个起点。当 Agent 能管 vCenter,它也能管 Kubernetes、管网络、管存储。当每个运维操作都变成一句话,我们就能把精力放在更有价值的事情上——架构设计、容量规划、故障预防。
让 Agent 干活,让运维回归思考。
项目地址: https://github.com/zw008/VMware-AIops
一键安装:
npx skills add zw008/VMware-AIops
如果你觉得这个项目有价值:
联系方式: zhouwei008@gmail.com
无论你是 Home Lab 玩家还是企业运维工程师,无论你用 Claude Code、Gemini CLI 还是纯本地模型——VMware-AIops 都能帮你把碎片化的运维操作变成一句话的事。试试看,然后告诉我你的体验。
附录:
我的运行实例:

1.连接我的lab环境

2.检查告警

3.发现时间不一致,尝试解决

4.自动解决
