首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >OpenClaw 爆火后,我做了个用自然语言管理 VMware 的 AI 技能

OpenClaw 爆火后,我做了个用自然语言管理 VMware 的 AI 技能

作者头像
Henry Zhang
发布2026-03-04 13:32:12
发布2026-03-04 13:32:12
5510
举报

一行命令安装,自然语言操控 vCenter/ESXi——从查库存、看告警到开关机、快照、迁移,全部用"说话"搞定。文末,附上了今天的运维实例


写在前面

2025 年底,OpenClaw(原 Clawdbot)横空出世,迅速成为 GitHub 上最热门的开源项目之一,把"AI Agent 管理一切"的理念推到了风口浪尖。紧接着,Anthropic 的 Claude Code 推出了插件市场,Vercel 推出了 skills.sh 开放技能生态,Google 的 Gemini CLI、OpenAI 的 Codex CLI 也纷纷跟进——AI Agent 正在从"写代码的助手"变成"什么都能干的操作员"

这股浪潮让我一直在想一个问题:

如果 AI Agent 能写代码、读文档、管项目,为什么不能管 VMware 虚拟化环境?

作为一个日常和 vCenter、ESXi 打交道的运维人,我每天重复着同样的动作——登录 vSphere Client,翻看告警,检查 VM 状态,手动开关机,偶尔做个快照或迁移。这些操作不复杂,但碎片化、重复、容易出错

于是我做了一件事:写了一个 Skill,让 AI Agent 直接管理 VMware 环境

它叫 VMware-AIops


一句话解释 VMware-AIops

VMware-AIops 是一个开源的 AI 技能包,让你用自然语言管理 vCenter Server 和 ESXi 主机。

它不是运维平台,不是监控大屏,而是一层"翻译层"——把自然语言转化为 pyVmomi API 调用,把 vSphere 的状态转化为人话。

代码语言:javascript
复制
你:"帮我看看 ESXi 上有多少虚拟机"
AI:"当前 ESXi 上有 4 台虚拟机:
      - Open-test (开机, 4核/16GB, IP: 192.168.60.74)
      - vcsa (开机, 2核/14GB, IP: 192.168.60.16)
      - vplc (关机, 2核/4GB)
      - VMware vCenter Server (关机, 4核/20GB)"

你:"内存告警是什么原因?"
AI:"主机物理内存 63.7GB,4 台 VM 共分配 54GB(84.8%),
     但实际使用仅 42.7%。告警是因为如果所有 VM 同时开机,
     内存可能不够。目前不影响运行。"

你:"帮 ESXi 同步一下 NTP"
AI:"已配置 NTP 服务器 192.168.60.74,ntpd 已启动,
     时间偏差从 81 秒校准到 0 秒。"

不用打开 vSphere Client,不用记命令,不用写脚本。说就行了。

想试试?一行命令安装:

代码语言:javascript
复制
npx skills add zw008/VMware-AIops

技术选型:Skill + MCP 如何让它跑起来

Agent 时代的运维需求

Gartner 连续多年将 AIOps(智能运维) 列为关键技术趋势——从告警降噪、日志分析到根因定位、自动修复,AI 正在渗透运维的每一个环节。

但现实是:大部分企业的运维工具链还停留在"仪表盘 + 告警邮件 + 手动处理"的阶段。

OpenClaw 的爆火验证了一件事:用户不想学新工具,他们想用自然语言和现有系统对话

VMware-AIops 正是基于这个理念设计的:

  • 不造轮子 — 底层是 pyVmomi(VMware 官方 Python SDK),稳定可靠
  • 不绑平台 — 适配 9 大主流 AI 工具,通过 MCP 协议兼容 30+ 客户端
  • 不改流程 — 插入现有工作流,不需要迁移任何东西

Skill 是什么?

Skill 是 AI Agent 的"技能包"——一个 Markdown 文件,告诉 Agent"你会什么、怎么做"。

当你执行 npx skills add zw008/VMware-AIops,Agent 就获得了管理 VMware 的能力。就像给一位经验丰富的助手递上操作手册,他立刻就能上手。

MCP 是什么?

MCP(Model Context Protocol)是 Anthropic 提出的开放协议,让 AI 模型能够调用外部工具。VMware-AIops 同时提供了 MCP Server,可以注册到 Claude Desktop、Cursor、Smithery 等任何 MCP 客户端。

Skill 是给 Agent 的"知识",MCP 是给 Agent 的"手"。两者结合,Agent 既知道该做什么,又能真正执行。

能做什么?全场景覆盖

资源清单 — 一句话摸清家底

代码语言:javascript
复制
"列出所有虚拟机"
"哪些主机的 CPU 超过 80%?"
"datastore 还剩多少空间?"
"有哪些集群,DRS 和 HA 分别什么状态?"

支持 VM、主机、数据存储、集群、网络的全量查询。

健康监控 — 告警不再石沉大海

代码语言:javascript
复制
"有没有活跃告警?"
"最近 24 小时有什么异常事件?"
"硬件传感器有没有报警?"
"ntpd 服务在不在跑?"

覆盖 50+ 种事件类型:VM 故障、主机断连、存储异常、HA/DRS 事件、认证失败……

VM 生命周期 — 全流程操作

操作

说法示例

开机

"把 test-vm 开起来"

关机

"优雅关闭 dev-server"

创建

"建一个 4核/8GB 的新虚拟机"

删除

"删掉那个废弃的 old-backup"

快照

"给 prod-db 打个升级前快照"

克隆

"克隆一份 template-ubuntu"

迁移

"把 web-server 迁移到 esxi-02"

危险操作有双重确认机制——删除、关机、配置变更必须你连续确认两次,Agent 不会擅自操作。

定时扫描 — 7x24 自动巡检

内置 APScheduler 守护进程,每 15 分钟自动扫描所有目标的告警、事件和主机日志,匹配关键词(error, fail, critical, panic, timeout, corrupt),结果输出到 JSONL 日志,还能推送到 Slack、Discord 或任意 Webhook。

进阶能力

  • vSAN 管理 — 健康检查、容量监控、磁盘组、性能指标
  • Aria Operations — 历史指标、ML 异常检测、容量规划、右规格建议
  • VKS — Tanzu Kubernetes 集群管理、扩缩容

亮点与设计考量

安全性:密码永远不会出现在屏幕上

这是我在设计时最在意的一点。

密码统一存放在 ~/.vmware-aiops/.env 文件中,权限 600(仅所有者可读写)。模块导入时自动加载,运行时从环境变量读取。整个链路中,密码不会出现在

  • 脚本代码中
  • 命令行参数中(ps 看不到)
  • AI 的输出中
  • 日志文件中

SKILL.md 中有明确的 NEVER/ALWAYS 规则,告诉 Agent:

  • NEVER 在输出中显示密码
  • NEVERSmartConnect() 硬编码密码
  • ALWAYS 通过 ConnectionManager.from_config() 连接
  • ALWAYS 连接成功后只显示主机名、用户名和类型

首次使用引导

新用户不用看文档就能上手——SKILL.md 内置了 3 步引导流程:

  1. 检查 config.yaml 是否存在 → 没有就引导创建
  2. 检查 .env 是否存在 → 没有就引导从模板复制
  3. 测试连接 → 成功就开始工作

多平台兼容

这是 VMware-AIops 最独特的设计。同一套 Python 后端,适配了 9 种 AI 工具:

平台

配置格式

模型

Claude Code

SKILL.md (Plugin)

Claude

Gemini CLI

GEMINI.md (Extension)

Gemini

Codex CLI

SKILL.md + AGENTS.md

GPT

Aider

AGENTS.md (Conventions)

任意 / Ollama

Continue

AGENTS.md (Rules)

任意 / Ollama

Trae IDE

project_rules.md

Claude/DeepSeek/豆包

Kimi Code

SKILL.md

Kimi

MCP Server

FastMCP (stdio)

任意 MCP 客户端

CLI

Typer

无需 AI

无论你用什么 AI 工具,都能用同样的能力管理 VMware。

甚至支持纯本地模型(Aider + Ollama + Qwen/DeepSeek),适合隔离网络或有数据合规要求的场景。

vSphere 全版本兼容

设计上兼容 vSphere 6.5 到 8.0 U3,pyVmomi 在 SOAP 握手阶段自动协商 API 版本,无需手动配置。已在 vSphere 8.0 环境中验证,同一套代码管理 7.0 和 8.0 混合环境毫无压力。

真实使用体验

我自己的 Home Lab 就在用 VMware-AIops 管理——一台 ESXi 8.0 主机,挂了一个 vCenter Server 8.0.3,跑了 4 台 VM。

日常操作全部在终端里用自然语言完成:

  • "查一下 vCenter 状态" → 秒出 VM 列表、主机信息、存储使用率、活跃告警
  • "内存告警怎么回事?" → 自动分析 Overcommit 比率,给出原因和建议
  • "帮 ESXi 配一下 NTP" → 配置 NTP 服务器、启动服务、校准时间、验证结果,一气呵成
  • "最近 24 小时有什么事件?" → 过滤噪音,提取关键运维事件,按时间线展示

效率提升体感:

操作

传统方式

VMware-AIops

查看全部 VM 状态

打开浏览器 → 登录 vSphere → 逐个点击

说一句话,2 秒出结果

排查告警原因

看告警 → 查指标 → 翻文档 → 分析

Agent 自动关联数据并给出结论

配置 NTP

SSH → 编辑配置 → 重启服务 → 验证

Agent 一条龙完成

创建快照

右键 → 快照管理 → 填表单

"给 XX 打个快照"

不是说 vSphere Client 不好用,而是很多操作根本不值得你打开浏览器。

VMware-AIops 不是要替代你的运维体系,而是做一个快捷入口——日常巡检、告警处理、变更操作在终端里随手完成,值班交接让 Agent 生成状态报告,CI/CD 通过 CLI 或 MCP 接入 Pipeline 实现自动化。


安装:一行命令

推荐方式(适用于所有 AI 工具):

代码语言:javascript
复制
npx skills add zw008/VMware-AIops

Claude Code 用户:

代码语言:javascript
复制
/plugin marketplace add zw008/VMware-AIops
/plugin install vmware-ops

配置只需两步:

代码语言:javascript
复制
# 1. 复制配置文件,填入你的 vCenter/ESXi 地址和用户名
cp config.example.yaml ~/.vmware-aiops/config.yaml

# 2. 复制密码模板,填入密码,锁定权限
cp .env.example ~/.vmware-aiops/.env
chmod 600 ~/.vmware-aiops/.env

然后就可以开始了。


进阶场景:和 OpenClaw 整合

OpenClaw 作为一个通用的 Agent 编排层,天然适合和 VMware-AIops 配合。几个有趣的场景:

场景 1:Telegram 里管 Home Lab

OpenClaw 连接 Telegram → 你发一条消息"ESXi 有告警吗?" → OpenClaw 调用 VMware-AIops 的 MCP Server → 返回告警列表。

场景 2:自动化巡检报告

OpenClaw 每天早上 8 点自动执行:查告警 → 查事件 → 查存储容量 → 生成巡检报告 → 发到 Slack/钉钉。

场景 3:跨系统联动

OpenClaw + VMware-AIops + GitHub Skill: "CI 构建完成后,自动克隆一个测试 VM,部署最新代码,跑完测试后删除 VM。"

场景 4:智能值班

OpenClaw 持久运行,监测 VMware 告警,根据严重级别自动决策:

  • 信息级 → 记录日志
  • 警告级 → 发通知
  • 严重级 → 自动执行预案(重启服务、迁移 VM)

注意:OpenClaw 生态存在已知安全风险,社区已报告多起安全事件,部分第三方 Skill 被发现含有恶意代码。在生产环境中使用时,请严格审核第三方 Skill 来源。VMware-AIops 不依赖 OpenClaw,可完全独立使用。


下一步:用自然语言编排自动化工作流

VMware-AIops 目前解决的是"单次操作"的问题——你说一句话,Agent 执行一个动作。但运维的真正痛点往往在于多步骤的自动化流程

传统的自动化工具——Ansible Playbook、vRealize Orchestrator、Terraform——功能强大,但学习曲线陡峭。你需要学 YAML 编排语法、理解状态管理、调试复杂的依赖关系。一个简单的"升级前打快照 → 升级 → 验证 → 失败就回滚"流程,可能要写几十行编排代码。

下一个版本的方向是:用自然语言描述工作流,Agent 自动编排执行。

想象一下:

代码语言:javascript
复制
你:"每周五晚上 10 点,自动给所有生产 VM 打快照,保留最近 3 个,
     超过的自动删除。如果存储空间低于 20%,跳过并通知我。"

Agent:自动理解意图 → 拆解为多步任务 → 定时执行 → 异常处理 → 通知

不需要写 Ansible Playbook,不需要配 Orchestrator,不需要编排 DAG。用人话描述需求,Agent 就是你的编排引擎。

这不是幻想——当 Skill 提供了足够的原子操作(查询、快照、删除、通知),Agent 有足够的推理能力理解意图和处理异常,自然语言驱动的自动化就是水到渠成的事。

后续计划整合的方向还包括:

  • 与 Ansible/Terraform 联动 — Agent 理解你的意图,自动生成并执行 Playbook
  • 跨平台编排 — VMware + Kubernetes + 网络设备,一句话搞定跨域变更
  • 智能预案 — 基于历史告警模式,自动建议和执行修复策略

这些想法还在打磨中,非常期待社区的参与和反馈。


写在最后

VMware-AIops 是一个个人开源项目,MIT 协议。

我做这个项目的初衷很简单:运维不应该是重复劳动,AI Agent 已经足够聪明来帮我们处理这些事情了。

从 OpenClaw 的爆火到 Skill 生态的兴起,从 MCP 协议的普及到 AIOps 理念的落地——2026 年是 AI Agent 真正走进基础设施运维的元年。

VMware-AIops 只是一个起点。当 Agent 能管 vCenter,它也能管 Kubernetes、管网络、管存储。当每个运维操作都变成一句话,我们就能把精力放在更有价值的事情上——架构设计、容量规划、故障预防。

让 Agent 干活,让运维回归思考。


项目地址: https://github.com/zw008/VMware-AIops

一键安装:

代码语言:javascript
复制
npx skills add zw008/VMware-AIops

如果你觉得这个项目有价值:

  • Star — 给项目点个 Star,让更多人看到
  • Issue — 遇到问题或有建议,直接提 Issue,我会认真回复每一条
  • Feature Request — 你希望 Agent 能帮你做什么运维操作?告诉我,排进开发计划
  • Pull Request — 欢迎贡献代码,无论是修 Bug、加功能还是完善文档

联系方式: zhouwei008@gmail.com


无论你是 Home Lab 玩家还是企业运维工程师,无论你用 Claude Code、Gemini CLI 还是纯本地模型——VMware-AIops 都能帮你把碎片化的运维操作变成一句话的事。试试看,然后告诉我你的体验。

附录:

我的运行实例:

1.连接我的lab环境

2.检查告警

3.发现时间不一致,尝试解决

4.自动解决

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 亨利笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 写在前面
  • 一句话解释 VMware-AIops
  • 技术选型:Skill + MCP 如何让它跑起来
    • Agent 时代的运维需求
    • Skill 是什么?
    • MCP 是什么?
  • 能做什么?全场景覆盖
    • 资源清单 — 一句话摸清家底
    • 健康监控 — 告警不再石沉大海
    • VM 生命周期 — 全流程操作
    • 定时扫描 — 7x24 自动巡检
    • 进阶能力
  • 亮点与设计考量
    • 安全性:密码永远不会出现在屏幕上
    • 首次使用引导
    • 多平台兼容
    • vSphere 全版本兼容
  • 真实使用体验
  • 安装:一行命令
  • 进阶场景:和 OpenClaw 整合
  • 下一步:用自然语言编排自动化工作流
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档