首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >产品公司的AI时机判断#Notion 重建了 5 次,才做出可用的Custom Agents

产品公司的AI时机判断#Notion 重建了 5 次,才做出可用的Custom Agents

作者头像
mixlab
发布2026-04-23 18:55:07
发布2026-04-23 18:55:07
1170
举报
封面图片
封面图片

2022 年底,GPT-4 刚发布,Notion 就开始尝试做智能体(Agent)了。

他们第一次的想法很直接:给 AI 访问 Notion 所有工具的能力,让它在后台为你工作。

那次失败了。第二次失败了。第三次,第四次,一直到 2025 年 9 月,才正式发布 Custom Agents。

中间经历了 4-5 次彻底重建。

Notion 联派创始人兼 AI 负责人 Simon Last 在 Latent Space 播客,第一次完整讲出了这段历史。主持人 swyx 说,他为这次访谈等了将近 3 年。

受OpenClaw等主动式Agent的启发:Notion AI 如何重新定义一人公司的效率


为什么每次都失败

这意味着什么?工具领先了模型能力,而模型能力才是真正的解锁点。

五次重建,失败原因各不相同:

  • 第 1 次(2022 末):函数调用(function calling)概念还没有,团队自己设计工具调用框架,模型太弱,根本跑不起来
  • 第 2 次(2023 初):尝试微调模型,但上下文窗口只有 4K-8K,无法支撑多轮交互
  • 第 3 次(2023-24):建了自定义 XML 格式的智能体框架(agent harness),暴露给模型的复杂度太高
  • 第 4 次(2024 中):迁移到类 Markdown/SQL 抽象层,工具定义频繁变化,不稳定
  • 第 5 次(2025 初):Claude 3.6/3.7 时代,模型能力终于支撑了可靠的产品体验——这次成了

Simon 在播客里用了一句话:

"context length 也太短了……模型就是太笨,我们就这样不停地撞墙。"
"context length 也太短了……模型就是太笨,我们就这样不停地撞墙。"

撞了三年,撞到模型本身终于就位。


Agent Lab Thesis:产品公司该怎么赌时机

这不是说"动手越早越好",也不是说"等到成熟再做"。

Simon 提出了他称之为 Agent Lab Thesis 的产品策略:

"应用公司不应只是包装模型,而要理解人们如何协作,并在前沿能力周围构建正确的产品系统。你要在模型能力还不成熟时就足够早地开始做,但同时也要确保当模型准备好时,你的产品也准备好了。"
"应用公司不应只是包装模型,而要理解人们如何协作,并在前沿能力周围构建正确的产品系统。你要在模型能力还不成熟时就足够早地开始做,但同时也要确保当模型准备好时,你的产品也准备好了。"

这是一个时机判断问题。Notion 在 2022 年就开始做,是为了积累对用户协作模式的理解——这些理解在模型就位后,才能快速转化为产品。但他们也足够理性:在模型能力不够的时候发布,会伤害产品信任。

他们维护了三类并行项目:

  • 已发布项目:保持高质量运营
  • 实验性项目:探索 18 个月后"显而易见"的方向
  • 疯狂的项目:即使方向不明,也持续投入

这是一种组合拳。不是 all-in 一条线,而是三条线同时跑,不同时间窗口收获不同回报。


Token Town:Notion 的 AI 团队结构

Notion 内部负责 AI 的团队叫 Token Town,有两类核心角色:

AI Engineers:构建智能体能力

Model Behavior Engineers(MBE,模型行为工程师):专门理解模型行为、编写评估体系(eval)、分析失败模式——这个角色是 Notion 特有的,融合了数据科学家、产品经理和提示工程师三种技能。

MBE 的存在,说明了一件事:AI 产品的质量护栏,不会自动建立。你需要有人专门做这件事。

Notion 团队做的一个案例可以说明 MBE 的价值:他们雇了第三方来检测模型供应商的"秘密量化降质"——在跨供应商的评估(eval)中发现某家正在悄悄降低模型质量。如果没有专门的人负责这件事,这种偏差会默默积累,直到用户开始抱怨。


三层评估体系

Notion 的评估(eval)体系分三层,每层目标完全不同:

  • 回归测试:进入持续集成(CI),防止功能退化,通过率要求接近 100%
  • 发布质量评估:产品发布标准,各维度达标率 80-90%
  • 前沿评估:故意设定在 30% 通过率——目的是追踪模型能力边界,为合作伙伴提供有价值的反馈

第三层 30% 的设计是反常识的。Simon 解释:

"我们在 30% 通过率的目标上与 Anthropic 和 OpenAI 合作了几个月,因为我们达到了一个评估饱和点——无法给出有洞察力的反馈,除了'它没有更差'。这对合作伙伴没帮助,对我们理解模型走向也没帮助。"
"我们在 30% 通过率的目标上与 Anthropic 和 OpenAI 合作了几个月,因为我们达到了一个评估饱和点——无法给出有洞察力的反馈,除了'它没有更差'。这对合作伙伴没帮助,对我们理解模型走向也没帮助。"

评估不是越高越好。评估是为了发现有用的信息,不是为了刷高分。 一个故意难以通过的测试,比一个所有人都能过的测试,信息量要高得多。

Notion 还在把评估系统本身智能体化:评估智能体可以端到端地下载数据集、运行评估、迭代失败、自动调试、实现修复。软件工程师的角色因此也在变——从手动检查代码,到构建能写评估的智能体和大模型裁判(LLM judge)。


MCP vs CLI:Notion 的集成哲学

Simon 对两种集成方式有清晰的判断:

  • MCP(Model Context Protocol,模型上下文协议):适合窄、轻量级的智能体。权限模型强,社区生态好,Simon 原话:"MCP is just the dumb simple thing that works."
  • CLI(命令行接口):Simon 仍然非常看好,特别是需要完整计算运行时的场景
  • 深度集成:如 Notion Mail,选择与工程团队直接合作自建 API,为了极低延迟和专属的产品质量控制

没有万能方案。关键是清楚自己的场景是什么,再选工具。

为什么 AI 编程工具都在"复古"做 CLI?这是下一个十年最稀缺的东西#CLI新交互范式


误判校正

一个常见的认知偏差:"做 AI 产品就是赶早不赶晚。"

Notion 的五次重建提供了一个反例:在模型能力不足时强行发布,不是领先,是消耗产品信任。更重要的判断是:你的实验是否在真正积累理解,还是只是在等待模型成熟?

如果是前者,坚持跑。如果是后者,先停下来搞清楚用户真正需要什么。


对独立开发者和小团队的启发

Notion 的故事里有几件事,在任何规模上都成立:

  • 时机判断优先于速度:在模型能力不足时强行发布,会伤害产品信任。宁可等,不要拿不够好的版本教育用户。
  • 评估体系是质量护栏:哪怕是个人项目,也值得设计一个最简单的评估——知道你的智能体在哪里出错,是改进的前提。
  • 删掉自己代码的文化:Notion 能多次重建,离不开团队"低自我(low-ego)"的文化。对自己的框架执念越深,越容易错过时机。

如果你也在做 AI 产品、智能体工作流,或者想搞清楚怎么评估一个 AI 系统的质量,来 MixLab 无界社区和我们同行。这里聚集着最先触达未来的那一小部份人,正在持续共建下一代工作方式。

为什么必须构建自己的 AgentOS #系统性知识:AgentOS录播2026版#原创


参考

[1] Notion's Token Town: 5 Rebuilds, 100+ Tools, MCP vs CLIs and the Software Factory Future — Latent Space 播客 #139

[2] Introducing Custom Agents — Notion 官方博客

[3] September 18, 2025 – Notion 3.0: Agents — Notion 官方发布说明

[4] @swyx Twitter thread — 2026-04-15

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 无界社区mixlab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 为什么每次都失败
  • Agent Lab Thesis:产品公司该怎么赌时机
  • Token Town:Notion 的 AI 团队结构
  • 三层评估体系
  • MCP vs CLI:Notion 的集成哲学
  • 误判校正
  • 对独立开发者和小团队的启发
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档