AI 开始「先读再干」：创始人认知带宽重获自由的信号

mixlab

发布于 2026-04-17 14:03:21

1490

两周前，SkyPilot 在技术博客上记录了一次实验[1]。

他们没有像往常一样给 AI Agent 一个代码优化任务、让它直接开干，而是在任务开始前先给 Agent 布置了一个「研究阶段」：去读 arxiv 论文、研究 Llama.cpp 的竞品实现、查阅 CUDA 和 Metal 后端中已有的优化方案。

Agent 花了大约 3 小时、调用 4 台云虚拟机、总成本约 $29，得出了 5 个核融合优化方案，最终让 Llama.cpp 在 x86 架构上的 CPU 推理速度提升了 15%，在 ARM 上提升了 5%。

这不是最让人惊讶的部分。真正有意思的是对比：Karpathy 的原始 Autoresearch 采用纯代码上下文驱动方式[6]：只给目标，让 Agent 自己在代码里找变化——最终在 16 块 GPU 上跑了 8 小时、生成 910 个实验，val_bpb 优化率为 2.87%。

而加了研究阶段之后，同样的团队、同样的预算，产出是前者的数倍。

几乎同一时间，一位 macOS 开发者发布了一篇博客，记录了他如何利用 macOS 新增的原生即时 Space 切换功能，配合 AI 辅助，重构了自己在多任务工作流中的操作节奏[2]。

几件事放在一起，指向一个正在成形的基础设施升级：个体操作者的认知资源，正在被系统性释放。

先研究，再执行：AI 工作流的新范式

在 SkyPilot 的实验里[1]，Agent 不是等着被告知「应该优化哪里」，而是主动去找文献里提到的、竞品已经实现了的、自己后端代码里还没移植的优化机会。这与 Karpathy 的纯代码上下文驱动方式[6]形成了对照——两种路径的对比，本质上是「人给方向」与「AI 自己找方向」的区别。

这种「先读再干」的模式，本质上是把「找到最优路径」这件事也交给了 AI——人从「给出方向」变成了「设定目标边界」。

Shopify 创始人 Tobi Lütke 也在这个方向上做过一次实验：让 AI Agent 优化 Ruby 模板引擎 Liquid（这个引擎每年处理 $2920 亿美元的电商交易额）。

Agent 跑了约 120 个实验，生成了 93 个 commit，最终把解析和渲染速度提升了 53%，内存分配减少了 61%，零回归[1]。

29 的云成本、2920 亿的年交易额——这个对比，让 AI 工作流的价值不再只是「省了多少时间」，而是「帮你赚到了多少你本来赚不到的效率」。

操作系统也在为 AI 做好准备

如果说研究型 Agent 是软件层的工作流重构，那操作系统层面的变化，可能更具根本性。

macOS 新增的原生即时 Space 切换功能，本质上是一个操作系统级的注意力管理工具[2]。它的作用不是让 AI 直接帮你做事，而是让你——作为一个人——在多个工作环境之间更快速地切换，从而在每一个时刻都能保持对当前任务的完整注意力。

这背后有一个认知科学的基础概念：注意力切换成本。当你从任务 A 切换到任务 B，大脑的工作记忆需要清空 A 的上下文、加载 B 的上下文——这个过程平均需要 20 到 25 分钟才能真正进入深度专注状态。传统的多桌面切换，由于切换速度慢，实际上在强化这种成本；而原生即时切换，是通过让切换本身足够快，来减少上下文重建的摩擦。

开发者们正在发现[2]：在 AI 辅助下，你的操作系统不再是单纯的「任务容器」，而变成了一个「认知资源调度器」。

AI 帮你保持对当前任务线的理解，而 Space 帮你管理任务之间的物理边界。

工具美学也在这个方向上发生有趣的变化。

位图字体——那种像素感十足、让人想起早期 Macintosh 的字体——正在开发者和设计师社区里重新流行[4]。

不是因为复古本身有吸引力，而是因为像素字体传递了一种信息：这个工具在乎它被使用时的「计算机感」，在乎操控的精确性，而不是在追求过度的圆润和智能化。这是 AI 时代工具设计的一种反讽式回调：越智能的工具，越需要保留「我正在操控机器」的实感。

认知带宽重新分配：创始人真正应该做的事

说到这里，有一句被反复提起的话值得重新理解：「创始人认知带宽决定公司天花板。」

这句话最早被用来论证「创始人应该聚焦在最重要的事情上」。而在 AI 时代，它有了更具体的注解：当执行层面的工作正在被大规模替代，创始人的认知资源真正应该流向的，是机器暂时还做不了的判断[5]。

独立游戏工作室 Sunset Visitor 花两年做了一款「证明 AI 非人类」的游戏[5]，本质上也是在做同一件事：在 AI 能力爆发的时代，用创作行为本身重新划定人的专属领域。

研究型 Agent 帮你找到了最优解方向[1]。操作系统级工具帮你减少了注意力切换的摩擦[2]。Anthropic 最近限制 Mythos 模型发布的事件[3]，则提供了另一个维度的启示：AI 的能力上限正在快速推进，但「在哪里用、怎么用」的决策权，始终在人类手里。你可以把 Anthropic 的限制理解为对 AI 安全的重视，也可以理解为：

最前沿的 AI 已经强到连它的创造者都在担心它「太能找漏洞」的程度。

这意味着：创始人的判断力，是 AI 能力的乘数。同样的 AI 工具，在不同判断力的人手里，产出会差出几个数量级。

所以，每周做一次「认知审计」可能比任何 AI 工具都重要：我这周花在执行上的时间有多少，花在判断上的时间又有多少？如果执行占了你 60% 以上的时间，那是你的 AI 工具栈还没到位，或者你对「什么事情值得自己做」的判断框架需要更新。

建筑学里有一个概念叫「功率密度」——单位体积产生的能量。把它迁移到认知科学，就是：你的认知功率密度 = 你在判断、决策和创意上投入的认知能量，除以你的总认知资源。AI 的作用，是让这个分母变小——释放更多认知资源用于分子上的事。