
2022 年底,GPT-4 刚发布,Notion 就开始尝试做智能体(Agent)了。
他们第一次的想法很直接:给 AI 访问 Notion 所有工具的能力,让它在后台为你工作。
那次失败了。第二次失败了。第三次,第四次,一直到 2025 年 9 月,才正式发布 Custom Agents。
中间经历了 4-5 次彻底重建。
Notion 联派创始人兼 AI 负责人 Simon Last 在 Latent Space 播客,第一次完整讲出了这段历史。主持人 swyx 说,他为这次访谈等了将近 3 年。
受OpenClaw等主动式Agent的启发:Notion AI 如何重新定义一人公司的效率
这意味着什么?工具领先了模型能力,而模型能力才是真正的解锁点。
五次重建,失败原因各不相同:
Simon 在播客里用了一句话:

撞了三年,撞到模型本身终于就位。
这不是说"动手越早越好",也不是说"等到成熟再做"。
Simon 提出了他称之为 Agent Lab Thesis 的产品策略:

这是一个时机判断问题。Notion 在 2022 年就开始做,是为了积累对用户协作模式的理解——这些理解在模型就位后,才能快速转化为产品。但他们也足够理性:在模型能力不够的时候发布,会伤害产品信任。
他们维护了三类并行项目:
这是一种组合拳。不是 all-in 一条线,而是三条线同时跑,不同时间窗口收获不同回报。
Notion 内部负责 AI 的团队叫 Token Town,有两类核心角色:
AI Engineers:构建智能体能力
Model Behavior Engineers(MBE,模型行为工程师):专门理解模型行为、编写评估体系(eval)、分析失败模式——这个角色是 Notion 特有的,融合了数据科学家、产品经理和提示工程师三种技能。
MBE 的存在,说明了一件事:AI 产品的质量护栏,不会自动建立。你需要有人专门做这件事。
Notion 团队做的一个案例可以说明 MBE 的价值:他们雇了第三方来检测模型供应商的"秘密量化降质"——在跨供应商的评估(eval)中发现某家正在悄悄降低模型质量。如果没有专门的人负责这件事,这种偏差会默默积累,直到用户开始抱怨。
Notion 的评估(eval)体系分三层,每层目标完全不同:
第三层 30% 的设计是反常识的。Simon 解释:

评估不是越高越好。评估是为了发现有用的信息,不是为了刷高分。 一个故意难以通过的测试,比一个所有人都能过的测试,信息量要高得多。
Notion 还在把评估系统本身智能体化:评估智能体可以端到端地下载数据集、运行评估、迭代失败、自动调试、实现修复。软件工程师的角色因此也在变——从手动检查代码,到构建能写评估的智能体和大模型裁判(LLM judge)。
Simon 对两种集成方式有清晰的判断:
没有万能方案。关键是清楚自己的场景是什么,再选工具。
为什么 AI 编程工具都在"复古"做 CLI?这是下一个十年最稀缺的东西#CLI新交互范式
一个常见的认知偏差:"做 AI 产品就是赶早不赶晚。"
Notion 的五次重建提供了一个反例:在模型能力不足时强行发布,不是领先,是消耗产品信任。更重要的判断是:你的实验是否在真正积累理解,还是只是在等待模型成熟?
如果是前者,坚持跑。如果是后者,先停下来搞清楚用户真正需要什么。
Notion 的故事里有几件事,在任何规模上都成立:
如果你也在做 AI 产品、智能体工作流,或者想搞清楚怎么评估一个 AI 系统的质量,来 MixLab 无界社区和我们同行。这里聚集着最先触达未来的那一小部份人,正在持续共建下一代工作方式。
为什么必须构建自己的 AgentOS #系统性知识:AgentOS录播2026版#原创
[1] Notion's Token Town: 5 Rebuilds, 100+ Tools, MCP vs CLIs and the Software Factory Future — Latent Space 播客 #139
[2] Introducing Custom Agents — Notion 官方博客
[3] September 18, 2025 – Notion 3.0: Agents — Notion 官方发布说明
[4] @swyx Twitter thread — 2026-04-15