OpenClaw 爆火后，我做了个用自然语言管理 VMware 的 AI 技能

Henry Zhang

发布于 2026-03-04 13:32:12

5510

一行命令安装，自然语言操控 vCenter/ESXi——从查库存、看告警到开关机、快照、迁移，全部用"说话"搞定。文末，附上了今天的运维实例

写在前面

2025 年底，OpenClaw（原 Clawdbot）横空出世，迅速成为 GitHub 上最热门的开源项目之一，把"AI Agent 管理一切"的理念推到了风口浪尖。紧接着，Anthropic 的 Claude Code 推出了插件市场，Vercel 推出了 skills.sh 开放技能生态，Google 的 Gemini CLI、OpenAI 的 Codex CLI 也纷纷跟进——AI Agent 正在从"写代码的助手"变成"什么都能干的操作员"。

这股浪潮让我一直在想一个问题：

如果 AI Agent 能写代码、读文档、管项目，为什么不能管 VMware 虚拟化环境？

作为一个日常和 vCenter、ESXi 打交道的运维人，我每天重复着同样的动作——登录 vSphere Client，翻看告警，检查 VM 状态，手动开关机，偶尔做个快照或迁移。这些操作不复杂，但碎片化、重复、容易出错。

于是我做了一件事：写了一个 Skill，让 AI Agent 直接管理 VMware 环境。

它叫 VMware-AIops。

一句话解释 VMware-AIops

VMware-AIops 是一个开源的 AI 技能包，让你用自然语言管理 vCenter Server 和 ESXi 主机。

它不是运维平台，不是监控大屏，而是一层"翻译层"——把自然语言转化为 pyVmomi API 调用，把 vSphere 的状态转化为人话。

你："帮我看看 ESXi 上有多少虚拟机"
AI："当前 ESXi 上有 4 台虚拟机：
      - Open-test (开机, 4核/16GB, IP: 192.168.60.74)
      - vcsa (开机, 2核/14GB, IP: 192.168.60.16)
      - vplc (关机, 2核/4GB)
      - VMware vCenter Server (关机, 4核/20GB)"

你："内存告警是什么原因？"
AI："主机物理内存 63.7GB，4 台 VM 共分配 54GB（84.8%），
     但实际使用仅 42.7%。告警是因为如果所有 VM 同时开机，
     内存可能不够。目前不影响运行。"

你："帮 ESXi 同步一下 NTP"
AI："已配置 NTP 服务器 192.168.60.74，ntpd 已启动，
     时间偏差从 81 秒校准到 0 秒。"

不用打开 vSphere Client，不用记命令，不用写脚本。说就行了。

想试试？一行命令安装：

npx skills add zw008/VMware-AIops

技术选型：Skill + MCP 如何让它跑起来

Agent 时代的运维需求

Gartner 连续多年将 AIOps（智能运维） 列为关键技术趋势——从告警降噪、日志分析到根因定位、自动修复，AI 正在渗透运维的每一个环节。

但现实是：大部分企业的运维工具链还停留在"仪表盘 + 告警邮件 + 手动处理"的阶段。

OpenClaw 的爆火验证了一件事：用户不想学新工具，他们想用自然语言和现有系统对话。

VMware-AIops 正是基于这个理念设计的：

不造轮子 — 底层是 pyVmomi（VMware 官方 Python SDK），稳定可靠
不绑平台 — 适配 9 大主流 AI 工具，通过 MCP 协议兼容 30+ 客户端
不改流程 — 插入现有工作流，不需要迁移任何东西

Skill 是什么？

Skill 是 AI Agent 的"技能包"——一个 Markdown 文件，告诉 Agent"你会什么、怎么做"。

当你执行 npx skills add zw008/VMware-AIops，Agent 就获得了管理 VMware 的能力。就像给一位经验丰富的助手递上操作手册，他立刻就能上手。

MCP 是什么？

MCP（Model Context Protocol）是 Anthropic 提出的开放协议，让 AI 模型能够调用外部工具。VMware-AIops 同时提供了 MCP Server，可以注册到 Claude Desktop、Cursor、Smithery 等任何 MCP 客户端。

Skill 是给 Agent 的"知识"，MCP 是给 Agent 的"手"。两者结合，Agent 既知道该做什么，又能真正执行。

能做什么？全场景覆盖

资源清单 — 一句话摸清家底

"列出所有虚拟机"
"哪些主机的 CPU 超过 80%？"
"datastore 还剩多少空间？"
"有哪些集群，DRS 和 HA 分别什么状态？"

支持 VM、主机、数据存储、集群、网络的全量查询。

健康监控 — 告警不再石沉大海

"有没有活跃告警？"
"最近 24 小时有什么异常事件？"
"硬件传感器有没有报警？"
"ntpd 服务在不在跑？"

覆盖 50+ 种事件类型：VM 故障、主机断连、存储异常、HA/DRS 事件、认证失败……

VM 生命周期 — 全流程操作

操作	说法示例
开机	"把 test-vm 开起来"
关机	"优雅关闭 dev-server"
创建	"建一个 4核/8GB 的新虚拟机"
删除	"删掉那个废弃的 old-backup"
快照	"给 prod-db 打个升级前快照"
克隆	"克隆一份 template-ubuntu"
迁移	"把 web-server 迁移到 esxi-02"

危险操作有双重确认机制——删除、关机、配置变更必须你连续确认两次，Agent 不会擅自操作。

定时扫描 — 7x24 自动巡检

内置 APScheduler 守护进程，每 15 分钟自动扫描所有目标的告警、事件和主机日志，匹配关键词（error, fail, critical, panic, timeout, corrupt），结果输出到 JSONL 日志，还能推送到 Slack、Discord 或任意 Webhook。

进阶能力

vSAN 管理 — 健康检查、容量监控、磁盘组、性能指标
Aria Operations — 历史指标、ML 异常检测、容量规划、右规格建议
VKS — Tanzu Kubernetes 集群管理、扩缩容

亮点与设计考量

安全性：密码永远不会出现在屏幕上

这是我在设计时最在意的一点。

密码统一存放在 ~/.vmware-aiops/.env 文件中，权限 600（仅所有者可读写）。模块导入时自动加载，运行时从环境变量读取。整个链路中，密码不会出现在：

脚本代码中
命令行参数中（ps 看不到）
AI 的输出中
日志文件中

SKILL.md 中有明确的 NEVER/ALWAYS 规则，告诉 Agent：

NEVER 在输出中显示密码
NEVER 用 SmartConnect() 硬编码密码
ALWAYS 通过 ConnectionManager.from_config() 连接
ALWAYS 连接成功后只显示主机名、用户名和类型

首次使用引导

新用户不用看文档就能上手——SKILL.md 内置了 3 步引导流程：

检查 config.yaml 是否存在 → 没有就引导创建
检查 .env 是否存在 → 没有就引导从模板复制
测试连接 → 成功就开始工作

多平台兼容

这是 VMware-AIops 最独特的设计。同一套 Python 后端，适配了 9 种 AI 工具：

平台	配置格式	模型
Claude Code	SKILL.md (Plugin)	Claude
Gemini CLI	GEMINI.md (Extension)	Gemini
Codex CLI	SKILL.md + AGENTS.md	GPT
Aider	AGENTS.md (Conventions)	任意 / Ollama
Continue	AGENTS.md (Rules)	任意 / Ollama
Trae IDE	project_rules.md	Claude/DeepSeek/豆包
Kimi Code	SKILL.md	Kimi
MCP Server	FastMCP (stdio)	任意 MCP 客户端
CLI	Typer	无需 AI

无论你用什么 AI 工具，都能用同样的能力管理 VMware。

甚至支持纯本地模型（Aider + Ollama + Qwen/DeepSeek），适合隔离网络或有数据合规要求的场景。

vSphere 全版本兼容

设计上兼容 vSphere 6.5 到 8.0 U3，pyVmomi 在 SOAP 握手阶段自动协商 API 版本，无需手动配置。已在 vSphere 8.0 环境中验证，同一套代码管理 7.0 和 8.0 混合环境毫无压力。

真实使用体验

我自己的 Home Lab 就在用 VMware-AIops 管理——一台 ESXi 8.0 主机，挂了一个 vCenter Server 8.0.3，跑了 4 台 VM。

日常操作全部在终端里用自然语言完成：

"查一下 vCenter 状态" → 秒出 VM 列表、主机信息、存储使用率、活跃告警
"内存告警怎么回事？" → 自动分析 Overcommit 比率，给出原因和建议
"帮 ESXi 配一下 NTP" → 配置 NTP 服务器、启动服务、校准时间、验证结果，一气呵成
"最近 24 小时有什么事件？" → 过滤噪音，提取关键运维事件，按时间线展示

效率提升体感：

操作	传统方式	VMware-AIops
查看全部 VM 状态	打开浏览器 → 登录 vSphere → 逐个点击	说一句话，2 秒出结果
排查告警原因	看告警 → 查指标 → 翻文档 → 分析	Agent 自动关联数据并给出结论
配置 NTP	SSH → 编辑配置 → 重启服务 → 验证	Agent 一条龙完成
创建快照	右键 → 快照管理 → 填表单	"给 XX 打个快照"

不是说 vSphere Client 不好用，而是很多操作根本不值得你打开浏览器。

VMware-AIops 不是要替代你的运维体系，而是做一个快捷入口——日常巡检、告警处理、变更操作在终端里随手完成，值班交接让 Agent 生成状态报告，CI/CD 通过 CLI 或 MCP 接入 Pipeline 实现自动化。

安装：一行命令

推荐方式（适用于所有 AI 工具）：

npx skills add zw008/VMware-AIops

Claude Code 用户：

/plugin marketplace add zw008/VMware-AIops
/plugin install vmware-ops

配置只需两步：

# 1. 复制配置文件，填入你的 vCenter/ESXi 地址和用户名
cp config.example.yaml ~/.vmware-aiops/config.yaml

# 2. 复制密码模板，填入密码，锁定权限
cp .env.example ~/.vmware-aiops/.env
chmod 600 ~/.vmware-aiops/.env

然后就可以开始了。

进阶场景：和 OpenClaw 整合

OpenClaw 作为一个通用的 Agent 编排层，天然适合和 VMware-AIops 配合。几个有趣的场景：

场景 1：Telegram 里管 Home Lab

OpenClaw 连接 Telegram → 你发一条消息"ESXi 有告警吗？" → OpenClaw 调用 VMware-AIops 的 MCP Server → 返回告警列表。

场景 2：自动化巡检报告

OpenClaw 每天早上 8 点自动执行：查告警 → 查事件 → 查存储容量 → 生成巡检报告 → 发到 Slack/钉钉。

场景 3：跨系统联动

OpenClaw + VMware-AIops + GitHub Skill： "CI 构建完成后，自动克隆一个测试 VM，部署最新代码，跑完测试后删除 VM。"

场景 4：智能值班

OpenClaw 持久运行，监测 VMware 告警，根据严重级别自动决策：

信息级 → 记录日志
警告级 → 发通知
严重级 → 自动执行预案（重启服务、迁移 VM）

注意：OpenClaw 生态存在已知安全风险，社区已报告多起安全事件，部分第三方 Skill 被发现含有恶意代码。在生产环境中使用时，请严格审核第三方 Skill 来源。VMware-AIops 不依赖 OpenClaw，可完全独立使用。

下一步：用自然语言编排自动化工作流

VMware-AIops 目前解决的是"单次操作"的问题——你说一句话，Agent 执行一个动作。但运维的真正痛点往往在于多步骤的自动化流程。

传统的自动化工具——Ansible Playbook、vRealize Orchestrator、Terraform——功能强大，但学习曲线陡峭。你需要学 YAML 编排语法、理解状态管理、调试复杂的依赖关系。一个简单的"升级前打快照 → 升级 → 验证 → 失败就回滚"流程，可能要写几十行编排代码。

下一个版本的方向是：用自然语言描述工作流，Agent 自动编排执行。

想象一下：

你："每周五晚上 10 点，自动给所有生产 VM 打快照，保留最近 3 个，
     超过的自动删除。如果存储空间低于 20%，跳过并通知我。"

Agent：自动理解意图 → 拆解为多步任务 → 定时执行 → 异常处理 → 通知

不需要写 Ansible Playbook，不需要配 Orchestrator，不需要编排 DAG。用人话描述需求，Agent 就是你的编排引擎。

这不是幻想——当 Skill 提供了足够的原子操作（查询、快照、删除、通知），Agent 有足够的推理能力理解意图和处理异常，自然语言驱动的自动化就是水到渠成的事。

后续计划整合的方向还包括：

与 Ansible/Terraform 联动 — Agent 理解你的意图，自动生成并执行 Playbook
跨平台编排 — VMware + Kubernetes + 网络设备，一句话搞定跨域变更
智能预案 — 基于历史告警模式，自动建议和执行修复策略

这些想法还在打磨中，非常期待社区的参与和反馈。

写在最后

VMware-AIops 是一个个人开源项目，MIT 协议。

我做这个项目的初衷很简单：运维不应该是重复劳动，AI Agent 已经足够聪明来帮我们处理这些事情了。

从 OpenClaw 的爆火到 Skill 生态的兴起，从 MCP 协议的普及到 AIOps 理念的落地——2026 年是 AI Agent 真正走进基础设施运维的元年。

VMware-AIops 只是一个起点。当 Agent 能管 vCenter，它也能管 Kubernetes、管网络、管存储。当每个运维操作都变成一句话，我们就能把精力放在更有价值的事情上——架构设计、容量规划、故障预防。

让 Agent 干活，让运维回归思考。

项目地址： https://github.com/zw008/VMware-AIops

一键安装：

npx skills add zw008/VMware-AIops

如果你觉得这个项目有价值：

Star — 给项目点个 Star，让更多人看到
Issue — 遇到问题或有建议，直接提 Issue，我会认真回复每一条
Feature Request — 你希望 Agent 能帮你做什么运维操作？告诉我，排进开发计划
Pull Request — 欢迎贡献代码，无论是修 Bug、加功能还是完善文档

联系方式： zhouwei008@gmail.com

无论你是 Home Lab 玩家还是企业运维工程师，无论你用 Claude Code、Gemini CLI 还是纯本地模型——VMware-AIops 都能帮你把碎片化的运维操作变成一句话的事。试试看，然后告诉我你的体验。

附录：

我的运行实例：

1.连接我的lab环境

2.检查告警

3.发现时间不一致，尝试解决

4.自动解决

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-02-27，如有侵权请联系 cloudcommunity@tencent.com 删除

配置

本文分享自亨利笔记微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度