gstack 最佳实战：23 个 AI 技能，7 步工作流，让一个人跑出完整工程团队的工作量

原创

运维有术

发布于 2026-04-21 21:58:52

4490

🚩 2026 年「术哥无界」系列实战文档 X 篇原创计划第 79 篇，AI 编程最佳实战「2026」系列第 13 篇
大家好，欢迎来到 术哥无界 | ShugeX ｜运维有术。
我是术哥，一名专注于 AI 编程、AI 智能体、Agent Skills、MCP、云原生、AIOps、Milvus 向量数据库的技术实践者与开源布道者！
Talk is cheap, let's explore。无界探索，有术而行。

Garry Tan 有两个身份：Y Combinator 总裁，和一个高产的开源开发者。2026 年，他在 GitHub 上有 1,237 次贡献，60 天内生成了超过 60 万行生产代码。同时，他还全职管理 YC。

这不是段子，数据来自 gstack 项目的 README。他的秘诀不是熬夜，而是一套叫 gstack 的开源工具集 - 用 23 个 AI 技能和 8 个强力工具，把一个程序员武装成一支虚拟工程团队。

1. gstack 到底是什么

一句话：gstack 是一套 AI 工程工作流工具集，把 Claude Code 变成一个有完整流程的工程团队。

它不是框架，不是 SDK，不是又一个 AI 编程插件。它的做法更直接 - 提供了一套结构化的 Sprint 工作流（Think → Plan → Build → Review → Test → Ship → Reflect），每个阶段都有对应的 AI 技能来执行。

打个比方：你一个人写代码，平时就是「想 → 写 → 提交」。用了 gstack 之后，流程变成了：先让 AI 帮你做产品方向审查（/office-hours），再做架构评审（/plan-eng-review），写完代码让另一个 AI 审查（/review），测试交给 QA 角色（/qa），最后自动发布（/ship）。

每个环节都有专门的 AI 技能负责，而且这些技能之间是配合关系，不是互相替代。

关键数据

指标	数据	来源
60 天生产代码	600,000+ 行	README
测试代码占比	35%	README
一周产出	140,751 行添加 / 362 次提交	README
当前版本	v0.16.2.0	README
许可证	MIT（开源）	README

2. 三个设计哲学：gstack 的底层逻辑

gstack 不只是工具集合，它有一套清晰的工程哲学，写在项目的 ETHOS.md 里。理解这三个原则，能帮你搞明白为什么 gstack 的技能是这样设计的。

Boil the Lake（煮沸湖泊）

核心意思：AI 辅助编程让做完整的边际成本接近零。既然如此，那就做完整。

但有个边界条件 - 湖泊和海洋的区别。湖泊是可以煮沸的：100% 测试覆盖率、完整功能实现、所有边缘情况。海洋是不行的：从零重写整个系统、多季度平台迁移。

翻译成大白话：能用 AI 做到完整的事情，就不要偷懒只做一半。但也要认清哪些事根本做不完，别碰。

Search Before Building（先搜索后构建）

三层知识体系：

Layer 1 - 经验证的：标准模式、久经考验的方法
Layer 2 - 新兴流行的：当前社区常见实践、博客文章、生态趋势
Layer 3 - 第一性原理：从具体问题推导出的原创观察

这个原则在 /office-hours 技能里体现得很明显 - 它会强制你回答六个问题，把产品方向想清楚再动手。而不是上来就开始写代码。

User Sovereignty（用户主权）

AI 模型推荐，用户决策。 两个 AI 模型同意某个变更是一个强信号，但不是命令。

这点很重要。gstack 的技能不是自动执行的流水线，每个关键节点都需要人来拍板。AI 给建议，你说了算。

3. 架构解析：为什么这么快

gstack 的技术架构用一句话概括：

Claude Code → CLI (编译二进制) → HTTP POST → Bun Server → CDP → Chromium (无头)

为什么选 Bun 不选 Node.js

ARCHITECTURE.md 里列了四个理由，每个都很实在：

编译二进制：bun build --compile 生成单个约 58MB 的可执行文件，不用装运行时
原生 SQLite：直接读取 Chromium 的 SQLite cookie 数据库，解密 Cookie 不用绕路
原生 TypeScript：开发时不需要编译步骤，改了直接跑
内置 HTTP 服务器：Bun.serve() 搞定，不用装 Express 或 Fastify

守护进程模型

首次调用浏览器时启动，大概 3 秒。之后每次调用只要 100-200 毫秒。30 分钟空闲自动关闭。

这个设计很聪明 - 既不用每次都冷启动浏览器，也不会一直占着内存。而且用随机端口（10000-60000），支持多个工作空间同时跑。

Ref 系统

这是 gstack 浏览器操作的核心。用 @e1、@e2、@c1 这样的标识来引用页面元素，基于 Playwright 的无障碍树定位，不修改 DOM。

好处是：即使页面结构变了（比如 SPA 路由切换），只要无障碍树没大变，引用还能用。导航时 refs 会自动清除，避免悬空引用。

安全模型

四个关键点：

只绑定 localhost，不暴露到网络
Bearer token 认证（UUID v4）
Cookie 安全：macOS Keychain 访问需用户批准，内存中解密，不写磁盘明文
Shell 注入防护

gstack 处理的是浏览器和代码，安全是底线。从架构设计看，这块做得很到位。

4. Sprint 工作流：7 步跑完一个完整迭代

gstack 的核心工作流是 Sprint，7 个阶段：Think → Plan → Build → Review → Test → Ship → Reflect。

每个阶段都有对应的 AI 技能。下面按阶段拆解，重点讲实操。

Think 阶段 - 想清楚再动手

/office-hours - 这个技能名字来自 YC 的办公时间传统。它会强制你回答六个问题，把产品方向和需求想清楚。

这步的本质是：用 15 分钟想清楚，避免花 5 小时写错东西。

在 Claude Code 里直接输入：

/office-hours

AI 会以 YC 合伙人的角色，逐个提问。回答完之后，你会得到一份结构化的产品方向文档。

Plan 阶段 - 三重审查

gstack 提供了一键审查流水线 /autoplan，自动跑三轮：

技能	角色	审查什么
`/plan-ceo-review`	CEO/创始人	重新思考问题，找 10 星产品方向
`/plan-design-review`	高级设计师	交互设计审查，0-10 评分
`/plan-eng-review`	工程经理	锁定架构、数据流、边缘情况

每轮审查都是独立的 AI 会话，不会互相干扰。三轮跑完，你会拿到一份经过三个视角审视的执行计划。

也可以单独跑某一轮，比如只需要工程架构审查：

/plan-eng-review

Build 阶段 - 写代码

这步主要靠 Claude Code（或其他 AI 编程 Agent）本身的能力。gstack 的设计是：规划阶段结束后的执行交给编程 Agent，配合 /browse 做浏览器端操作。

以 Claude Code 为例，调用 GLM5 或 MiniMax2.7 这样的大模型来生成代码，然后用 gstack 的浏览器技能验证实际效果。

Review 阶段 - 代码审查

/review - 主管工程师角色，专门发现那些通过 CI 但到生产环境会爆炸的 Bug。

/codex - 这个工具特别有意思。它会调用 OpenAI Codex CLI 做独立的代码审查，相当于让另一个模型从旁观者角度检查你的代码。

这就是 User Sovereignty 哲学的体现 - 两个 AI 模型都同意的改动，可信度更高。但最终拍板还是你。

实际使用：

/review
# 审查完成后，换一个模型视角
/codex

Test 阶段 - 真实浏览器测试

/qa - 不只是跑单元测试。它在真实浏览器里操作，找到 Bug 还会自动修复。

/benchmark - 性能工程师角色，跑 Core Web Vitals 和页面加载基准测试。

/qa
# 如果只想看报告不改代码
/qa-only

Ship 阶段 - 一键发布

/ship - 同步 main 分支、跑测试、审计覆盖率、推送、开 PR，一口气搞定。

/land-and-deploy - 合并 PR → CI → 部署 → 验证生产环境健康。

/ship
# 合并并部署
/land-and-deploy

Reflect 阶段 - 复盘

/retro - 工程经理角色，做团队感知的周回顾。

/learn - 管理跨会话的学习记录，让下一个 Sprint 能从上一个 Sprint 的经验中受益。

/retro
/learn

到这里，一个完整的 Sprint 就跑完了。从产品方向到上线发布，每个环节都有 AI 技能兜底。

5. 三种实战模式

单人高效模式

适合独立开发者。核心路径：

/office-hours → /autoplan → 写代码 → /review → /qa → /ship

一人分饰多角，但每个角色都有 AI 帮你把关。

根据 ETHOS.md 里的效率压缩比数据，几个典型场景的提升幅度：

任务类型	传统耗时	gstack 耗时	压缩比
样板代码/脚手架	2 天	15 分钟	~100x
测试编写	1 天	15 分钟	~50x
功能实现	1 周	30 分钟	~30x
Bug 修复+回归测试	4 小时	15 分钟	~20x

注意这些数据来自 gstack 官方文档，实际效果取决于你的项目复杂度和模型能力。但数量级是可信的 - AI 写样板代码和测试，确实比人快一两个数量级。

并行 Sprint 模式

这是 gstack 真正拉开差距的地方。利用守护进程的随机端口设计，你可以同时开 10-15 个 Sprint 会话。

具体操作：每个终端窗口跑一个独立的 Claude Code 实例，各自处理不同的任务。gstack 的浏览器守护进程支持多端口，互不干扰。

比如同时跑：

终端 1：功能 A 的 /plan-eng-review
终端 2：功能 B 的 /qa
终端 3：功能 C 的 /ship

一个人，三条线并行推进。Garry Tan 日产万行代码，靠的就是这个并行模式。

跨模型协作

/codex 让你用不同的大模型做独立审查。比如用 Claude Code 写代码，用 GLM5 做一轮审查，再用 MiniMax2.7 做交叉验证。

/pair-agent 支持跨 Agent 协调，共享浏览器会话。两个 AI Agent 可以在同一页面上协作操作。

# 在 Claude Code 中写完代码后
/review
# 换用独立模型审查
/codex
# 两个 Agent 协调工作
/pair-agent

你在项目里用过类似的跨模型审查方案吗？评论区聊聊效果。

6. 无头浏览器：不只是点击工具

gstack 的 /browse 技能背后是一个完整的无头浏览器系统，基于 Playwright + Chromium。

基本操作

# 打开网页
$B goto https://example.com

# 获取页面文本
$B text

# 获取可交互元素（按钮、链接、输入框）
$B snapshot -i

# 差异对比（和上次快照对比）
$B snapshot -D

# 截图
$B screenshot

$B 是 gstack 的浏览器命令别名。每条命令的响应时间在 100-200 毫秒，用起来几乎感觉不到延迟。

数据提取（v0.16.0 新增）

从 v0.16.0 开始，gstack 的浏览器从点击工具升级为数据提取平台：

media：发现页面上所有图片、视频、音频元素
data：提取结构化数据（JSON-LD、Open Graph、Twitter Cards）
download：下载 URL 或页面元素到本地
scrape：批量下载页面媒体
archive：保存完整页面为 MHTML

这些命令组合起来，可以做不少有意思的事 - 比如用 /qa 跑完测试后，自动用 data 提取页面结构化数据做验证。

7. 30 秒安装上手

前置条件

Claude Code（或其他支持的 AI 编程 Agent）
Git
Bun v1.0+

安装

一条命令搞定：

git clone --single-branch --depth 1 https://github.com/garrytan/gstack.git ~/.claude/skills/gstack && cd ~/.claude/skills/gstack && ./setup

大概 30 秒。完成后，所有技能就能在 Claude Code 里直接用了。

团队模式

如果是小团队协作，推荐用团队模式：

# 初始化团队配置
cd ~/.claude/skills/gstack && ./setup --team

# 在项目里启用
cd <your-repo> && ~/.claude/skills/gstack/bin/gstack-team-init required

团队模式会自动保持版本同步，避免版本不一致的问题。

支持 8 个 AI 编程 Agent

gstack 不绑定 Claude Code。官方支持 8 个 Agent：Claude Code、OpenAI Codex CLI、OpenCode、Cursor、Factory Droid、Slate、Kiro、OpenClaw。

不过目前功能完整的体验还是在 Claude Code 上，其他 Agent 的支持程度各有差异。

8. 安全机制：不是玩具

gstack 处理浏览器 Cookie、执行代码、操作生产环境，安全不能马虎。

四层提示注入防御（v0.15.12+）

内容信封：隔离外部内容
隐藏元素剥离：防止恶意隐藏内容
数据标记：标记数据来源
内容过滤器：过滤危险指令

安全工具

/careful    # 破坏性命令安全警告
/freeze     # 锁定目录，防止误编辑
/guard      # careful + freeze 组合，相当于安全模式

/guard 在做生产环境操作时特别有用 - 相当于给 AI 加了安全带。

9. 一个完整的 Sprint 演示

假设你在做一个 Web 应用的新功能，完整流程大概是这样：

第 1 步：想清楚需求

/office-hours

回答六个问题，拿到产品方向文档。15 分钟。

第 2 步：三重规划

/autoplan

自动跑 CEO、设计、工程三轮审查。拿到执行计划。30 分钟。

第 3 步：写代码

用 Claude Code 配合 GLM5 或 MiniMax2.7 写代码实现。根据功能复杂度，30 分钟到几小时不等。

第 4 步：审查

/review
/codex

两个模型交叉审查。发现潜在问题。15 分钟。

第 5 步：测试

/qa
/benchmark

真实浏览器测试 + 性能基准。自动修复发现的 Bug。15-30 分钟。

第 6 步：发布

/ship

同步、测试、审计、推送、开 PR。5 分钟。

第 7 步：复盘

/retro
/learn

记录这个 Sprint 的经验教训，下次不再踩同样的坑。10 分钟。

整个流程从需求到上线，一个人完成。传统流程至少需要产品经理、设计师、前端、后端、QA、DevOps 六个角色。gstack 把每个角色都 AI 化了，你只需要做决策。

10. 适合谁，不适合谁

适合

独立开发者：一个人做产品，缺人做审查和测试
小团队：3-5 人的早期团队，想要更规范的开发流程
开源维护者：一个人维护多个项目，需要高效的工作流

不太适合

纯新手：gstack 假设你已经会写代码，只是想提效
大团队：已经有完善的 CI/CD 和代码审查流程的团队，收益有限
非 Web 开发：浏览器相关的技能对非 Web 项目用处不大

总结

gstack 的价值不在于某个单一功能，而在于它把软件工程的完整流程结构化了。从产品思考到上线发布，每个环节都有对应的 AI 技能，而且这些技能是配合使用的，不是孤立存在的。

三个哲学（Boil the Lake、Search Before Building、User Sovereignty）贯穿整个工具集的设计。AI 做执行的效率远高于人，但方向判断和决策权始终在人手里。

如果你是一个人在做产品，或者小团队想要更规范的开发流程，值得花一个下午试试。MIT 开源，30 秒装完，不好用删了就是。

你对 AI 编程工作流的看法是什么？觉得一个人加 AI Agent 能替代一个小团队吗？欢迎在评论区说说你的观点。

好啦，谢谢你观看我的文章，如果喜欢可以点赞转发给需要的朋友，我们下一期再见！敬请期待！

扫码关注，获取更多 AI 工具的实战经验和最佳实践。不错过每一篇干货！

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

AI Coding 全栈开发

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

登录后参与评论

0 条评论

热度