产品公司的AI时机判断#Notion 重建了 5 次,才做出可用的Custom Agents

mixlab

发布于 2026-04-23 18:55:07

1170

2022 年底，GPT-4 刚发布，Notion 就开始尝试做智能体（Agent）了。

他们第一次的想法很直接：给 AI 访问 Notion 所有工具的能力，让它在后台为你工作。

那次失败了。第二次失败了。第三次，第四次，一直到 2025 年 9 月，才正式发布 Custom Agents。

中间经历了 4-5 次彻底重建。

Notion 联派创始人兼 AI 负责人 Simon Last 在 Latent Space 播客，第一次完整讲出了这段历史。主持人 swyx 说，他为这次访谈等了将近 3 年。

受OpenClaw等主动式Agent的启发：Notion AI 如何重新定义一人公司的效率

这意味着什么？工具领先了模型能力，而模型能力才是真正的解锁点。

五次重建，失败原因各不相同：

Simon 在播客里用了一句话：

撞了三年，撞到模型本身终于就位。

这不是说"动手越早越好"，也不是说"等到成熟再做"。

Simon 提出了他称之为 Agent Lab Thesis 的产品策略：

这是一个时机判断问题。Notion 在 2022 年就开始做，是为了积累对用户协作模式的理解——这些理解在模型就位后，才能快速转化为产品。但他们也足够理性：在模型能力不够的时候发布，会伤害产品信任。

他们维护了三类并行项目：

这是一种组合拳。不是 all-in 一条线，而是三条线同时跑，不同时间窗口收获不同回报。

Notion 内部负责 AI 的团队叫 Token Town，有两类核心角色：

AI Engineers：构建智能体能力

Model Behavior Engineers（MBE，模型行为工程师）：专门理解模型行为、编写评估体系（eval）、分析失败模式——这个角色是 Notion 特有的，融合了数据科学家、产品经理和提示工程师三种技能。

MBE 的存在，说明了一件事：AI 产品的质量护栏，不会自动建立。你需要有人专门做这件事。

Notion 团队做的一个案例可以说明 MBE 的价值：他们雇了第三方来检测模型供应商的"秘密量化降质"——在跨供应商的评估（eval）中发现某家正在悄悄降低模型质量。如果没有专门的人负责这件事，这种偏差会默默积累，直到用户开始抱怨。

Notion 的评估（eval）体系分三层，每层目标完全不同：

第三层 30% 的设计是反常识的。Simon 解释：

评估不是越高越好。评估是为了发现有用的信息，不是为了刷高分。 一个故意难以通过的测试，比一个所有人都能过的测试，信息量要高得多。

Notion 还在把评估系统本身智能体化：评估智能体可以端到端地下载数据集、运行评估、迭代失败、自动调试、实现修复。软件工程师的角色因此也在变——从手动检查代码，到构建能写评估的智能体和大模型裁判（LLM judge）。

Simon 对两种集成方式有清晰的判断：

MCP（Model Context Protocol，模型上下文协议）：适合窄、轻量级的智能体。权限模型强，社区生态好，Simon 原话："MCP is just the dumb simple thing that works."
CLI（命令行接口）：Simon 仍然非常看好，特别是需要完整计算运行时的场景
深度集成：如 Notion Mail，选择与工程团队直接合作自建 API，为了极低延迟和专属的产品质量控制

没有万能方案。关键是清楚自己的场景是什么，再选工具。

为什么 AI 编程工具都在"复古"做 CLI？这是下一个十年最稀缺的东西#CLI新交互范式