今天分享一个很炸裂的实践案例。(文末附教程)
一个独立开发者,用 OpenClaw + Codex/CC 搭了一套 AI Agent系统,实现了什么效果呢?

一天 94 次提交,30 分钟完成 7 个 PR,而且这一天他还开了 3 个客户会议,编辑器都没打开过。
这是真实发生在 2026 年 1 月的事。作者把整个系统的架构、工作流、代码配置都公开了,看完觉得这个思路太值得学习了,所以整理成这篇文章分享给你。
如果你也在用 Codex 或 Claude Code,或者对 OpenClaw 感兴趣,这篇文章会给你很多启发。
一个人,一天 94 次代码提交
先看几个数据,感受一下这套系统的威力:
过去 4 周的真实数据:
作者用这套系统在做一个真实的 B2B SaaS 产品,配合创始人直销,大部分功能需求都能当天搞定。速度快到什么程度?客户提需求,当天就能看到效果,直接转化成付费用户。
成本呢?每月 190(Claude 100 + Codex 90),新手起步 20 就能跑起来。
你可能会问:这是不是堆了一堆 AI 工具,然后疯狂生成垃圾代码?
不是的。作者的 Git 历史看起来像是“刚招了一个开发团队”,但实际上只有他一个人。关键变化是:他从“管理 Claude Code”变成了“管理一个 AI 管家,这个管家再去管理一群 Claude Code”。
这个转变带来的效果是:系统能自动完成几乎所有小到中等复杂度的任务,不需要人工介入。
为什么 Codex 和 Claude Code 单独用不够好?
这时候,你可能会想:Codex 和 Claude Code 已经很强了,为什么还要加一层编排?
作者给出的答案很直接:Codex 和 Claude Code 对你的业务几乎一无所知。它们只看到代码,看不到完整的业务图景。
这里有个根本性的限制:上下文窗口是固定的,你只能二选一。
你必须做选择往里面塞什么:
所以单独用 Codex 或 Claude Code 时,你会遇到这些问题:
OpenClaw 改变了这个等式。
它充当编排层,位于你和所有 AI 工具之间。它的角色是:
类比一下:
这就是为什么需要双层系统:通过上下文的专业化分工,而不是换更强的模型。
双层系统的具体架构:编排层 + 执行层
来看看这套系统的具体架构。

两层,各司其职:

OpenClaw(编排层)能做什么?
Agent(执行层)能做什么?
关键点:执行层的 Agent 永远不会接触生产数据库,也不会看到客户的敏感信息。它们只拿到“完成这个任务需要知道的最小上下文”。

这个设计很聪明:安全边界清晰,同时保证了效率。
完整工作流:从客户需求到 PR 合并的 8 个步骤
现在进入核心部分。用作者上周的一个真实案例,带你走一遍完整流程。
背景: 一个企业客户打电话来,说希望能复用他们已经配置好的设置,在团队内共享。通话结束后,作者和 Zoe(他的 OpenClaw) 聊了聊这个需求。
这里的神奇之处:零解释成本。因为所有会议记录自动同步到 Obsidian, Zoe 已经读过了通话内容,知道客户是谁、他们的业务场景、现有配置。
作者和 Zoe 一起把需求拆解成:做一个模板系统,让用户保存和编辑现有配置。
然后 Zoe 做了三件事:
# 创建 worktree + 启动代理 git worktree add ../feat-custom-templates -b feat/custom-templates origin/main cd ../feat-custom-templates && pnpm install tmux new-session -d -s "codex-templates" \ -c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates" \ "$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex high" 为什么用 tmux? 因为可以中途干预。
如果 AI 走偏了,不用杀掉重来,直接在 tmux 里发指令:
# 代理方向错了 tmux send-keys -t codex-templates "停一下。先做 API 层,别管 UI。" Enter # 代理需要更多上下文 tmux send-keys -t codex-templates "类型定义在 src/types/template.ts,用那个。" Enter 同时,任务会被记录到一个 JSON 文件里:
{ "id": "feat-custom-templates", "tmuxSession": "codex-templates", "agent": "codex", "description": "企业客户的自定义邮件模板功能", "repo": "medialyst", "worktree": "feat-custom-templates", "branch": "feat/custom-templates", "startedAt": 1740268800000, "status": "running", "notifyOnComplete": true } 一个 cron 任务每 10 分钟检查一次所有代理的状态。
重点:它不是去“问”Agent 进度如何(那样很费 token),而是检查客观事实:
这个监控脚本是 100% 确定性的,非常省 token,只在需要人工介入时才会通知作者。
这其实是改进版的 Ralph Loop,后面会详细讲。
gh pr create --fill 创建 PR。✅ PR 已创建
✅ 分支已同步到 main(没有冲突)
✅ CI 通过(lint、类型检查、单元测试、E2E 测试)
✅ Codex reviewer 通过
✅ Claude Code reviewer 通过
✅ Gemini reviewer 通过
✅ 如果有 UI 改动,必须包含截图
只有全部满足,才算真正完成。
每个 PR 会被三个 Agent 审查:
Codex Reviewer — 最靠谱的审查者
Gemini Code Assist Reviewer — 免费且好用
Claude Code Reviewer — 基本没用
三个审查者都会直接在 PR 里评论。
CI 管道会跑:
上周新加的规则:如果 PR 改了 UI,必须在描述里附上截图,否则 CI 直接失败。
这个规则大幅缩短了 review 时间 — 作者看一眼截图就知道改了什么,不用点进预览环境。
现在,作者收到 Telegram 通知:“PR #341 准备好了,可以 review。”
这时候:
作者的 review 只需要 5-10 分钟。 很多 PR 他甚至不看代码,只看截图就直接合并了。
PR 合并。每天有个 cron 任务清理孤立的 worktree 和任务记录。
完整流程走完,从客户需求到代码上线,可能只用了 1-2 小时,而作者的实际投入可能只有 10 分钟。
三个让系统更聪明的机制
机制 1:改进版 Ralph Loop — 不只是重复,而是学习
你可能听过 Ralph Loop:从记忆拉取上下文 → 生成输出 → 评估结果 → 保存学习。
但大多数实现有个问题:每次循环用的 prompt 都一样。 学习到的东西改善了未来的检索,但 prompt 本身是静态的。
这套系统不一样。
当 Agent 失败时,Zoe 不会用同样的 prompt 重启。她会带着完整的业务上下文,分析失败原因,然后重写 prompt:
❌ 坏例子(静态 prompt):
"实现自定义模板功能" ✅ 好例子(动态调整):
"停。客户要的是 X,不是 Y。这是他们在会议里的原话: '我们希望保存现有配置,而不是从头创建新的。' 重点做配置复用,不要做新建流程。" Zoe 能做这种调整,因为她有执行层 Agent 没有的上下文:
更进一步,Zoe 不会等你分配任务,她会主动找活干:
作者散步回来,Telegram 上显示:“7 个 PR 准备好了。3 个新功能,4 个 bug 修复。”
成功的模式会被记录下来:
奖励信号是:CI 通过、三个 code review 通过、人工合并。任何失败都会触发循环。
时间越长,Zoe 写的 prompt 越好,因为她记得什么能成功。
不是所有 Agent 都一样强。作者总结的选择策略:
Codex(gpt-5.3-codex) — 主力
Claude Code(claude-opus-4.5) — 速度型选手
Gemini — 设计师
Zoe 会根据任务类型自动选择 Agent,并在它们之间传递输出。账单系统 bug 给 Codex,按钮样式修复给 Claude Code,新仪表盘设计先给 Gemini。
这里有个意外的限制:不是 token 成本,不是 API 速率,而是内存。
每个 Agent 需要:
5 个 Agent 同时跑 = 5 个并行的 TypeScript 编译器 + 5 个测试运行器 + 5 套依赖加载到内存。
作者的 Mac Mini(16GB RAM)最多同时跑 4-5 个 Agent,再多就开始 swap,而且得祈祷它们不要同时构建。
所以他买了一台 Mac Studio M4 Max(128GB RAM,$3500),3 月底到货。他说到时候会分享值不值。
你也可以搭建:从零到运行只需 10 分钟
想试试这套系统?
最简单的方法:
把这整篇文章复制给 OpenClaw,告诉它:“按照这个架构,给我的代码库实现一套 Agent 集群系统。”
然后,它就会:
10 分钟搞定。
你需要准备:
作者在文末说了一段话,我觉得很有启发性:
“我们会看到大量一个人的百万美元公司从 2026 年开始出现。杠杆是巨大的,属于那些理解如何构建递归自我改进 AI 系统的人。”
这就是它的样子:
下一代创业者不会雇 10 个人去做一个人加一套系统就能做的事。 他们会这样构建——保持小规模,快速行动,每天发布。
现在 AI 生成的垃圾内容太多了。各种炒作,各种“任务控制中心”的花哨 demo,但没有真正有用的东西。
作者说他想做相反的事:少炒作,多记录真实的构建过程。真实的客户,真实的收入,真实的提交发布到生产环境,也有真实的失败。
这篇文章就到这里。
核心要点回顾:
如果你也在探索 AI 自动化的实践应用,希望这个案例能给你一些启发。
参考地址: 1. https://x.com/elvissun/status/2025920521871716562