
有一个问题我一直觉得值得认真追问。
当我们说一个人「聪明」,或者说一个AI系统「有智能」时,我们究竟是在说什么?
很多时候,人们会把答案归结为知识量。读书多、记忆好、能背出各种定理和典故,就容易被认为聪明。
在AI领域,类似的直觉也很常见——参数越多,训练数据越大,模型似乎就越「聪明」。
我们用参数量谈论模型能力,就像用脑容量评估动物智力,好像一个数字本身就能说明问题。
但这个直觉经不起推敲。
一个人可以博览群书,却在职场上处处碰壁,在关键时刻做出糟糕的判断;
一个人也可以熟读几百年的史料,却对自己下一步该怎么选择毫无头绪。
知识的积累和决策的质量,并不是一回事。我们在现实中见过太多 “知道很多,却做不好” 的情况。
这件事在AI身上表现得更加明显。
现在的大语言模型在训练中吸收并压缩了海量文本中的模式,可以写诗、解方程、翻译文本、分析法律条款;
但如果你把它放进一个真实的任务环境,比如让它帮你实际管理一个项目、做出连续的商业决策,或者处理一个需要长期跟踪的问题,它很快就会暴露出另一种限制。
知道和做到之间,隔着一道真实的鸿沟。
这篇文章想探讨的,正是这道鸿沟背后的本质。智能究竟是什么?如果它不是知识密度,那它更接近于什么?

Stuart Russell和Peter Norvig合著的《人工智能:一种现代方法》(Artificial Intelligence: A Modern Approach),是人工智能领域最有影响力、使用最广的教材之一。
这本书自1995年第一版出版以来,已被全球1500多所学校采用,是AI领域的重要标准文本。
它理解AI的方式,和大多数人的直觉不太一样。
在这本书采用的理性智能体(rational agent)视角下,AI被理解为对理性智能体的研究与构造。这里的Agent,指的是能够感知所处环境、并据此采取行动的实体。这个定义的重点不是「存储知识」,而是「在环境中行动」。
Russell和Norvig在四种AI研究方向中,把重点放在「理性行动」(Acting Rationally)这一边。一个AI系统的衡量标准,是它能否根据已有感知、目标和约束,采取预期最能达成目标的行动。
这里有一个重要的转向。行动发生在环境之中,而不是在真空之中。
智能不是一种静态属性,它在交互中显现,在决策里落地。一个无法行动的系统,无论内部存储了多少信息,都很难说具备智能。
Jon Doyle在1983年就提出过,理性智能体的设计会被视为AI的核心使命,而其他许多热门主题会随着时间推移分离出去,形成各自的学科。
这个判断在今天看来颇具先见之明。我们看到,搜索、推荐、自然语言处理,这些技术越来越成为成熟的工程工具;而更接近「智能」本身的议题,越来越向「如何在复杂环境中做出好的决策」这个方向集中。
所以,智能的核心命题不是「知道多少」,而是「能做什么」。
更准确地说,是「在特定情境下,能做出多好的决策」。
如果我们从决策质量的角度理解智能,下一个问题就来了。
什么是「最优」?这个目标真的可以实现吗?
赫伯特·西蒙(Herbert A. Simon)在这个问题上给出了一个令人清醒的回答。西蒙是20世纪最具跨界影响力的学者之一,研究横跨认知科学、计算机科学、经济学和组织管理,并在1978年获得诺贝尔经济学奖。
他最重要的贡献之一,是「有限理性」(Bounded Rationality)这个概念。
西蒙的核心观察很朴素。现实中的决策者,无论是人还是组织,都不可能做到经典经济学理论预设的那种「完全理性」。
原因很简单,信息永远不完整,时间永远有限,认知能力永远有边界。
你不可能把世界上所有相关信息都纳入考量之后再做决定,因为那样的话,决定永远不会被做出。
于是,西蒙提出了「满意即可」(Satisficing,由satisfy和suffice两个词合成)这个概念。
现实中的许多决策并不是寻找全局最优解,而是在约束条件下寻找「足够好的解」——找到一个满足自己期望阈值的方案,就停止搜索,做出决定。
这个洞察改变了我们对理性的理解。它说:智能不在于无限地追求完美,而在于有效地管理约束。
一个能在时间压力、信息不完整、资源有限的条件下持续做出「足够好决策」的系统,才是运作良好的智能系统。
把这个视角拿来看现在的AI Agent,会发现一种对应关系。一个Agent的上下文窗口(context window)是有限的,每次推理都有延迟成本,调用工具也有时间和资源开销,一次会话内所能处理的信息量同样有边界。
在这些约束之下,「最聪明的Agent」并不意味着「能够完美推导出最优解的Agent」,而是「能在约束中稳定产生高质量决策的Agent」。
有限理性不是缺陷,而是现实智能系统的运作规律。承认这一点,才可能理解什么是有效的智能设计。
1998年,哲学家安迪·克拉克(Andy Clark)和大卫·查尔默斯(David Chalmers)发表了一篇后来在认知科学领域引发广泛争论的论文,题目叫《扩展的心智》(The Extended Mind)。
他们问了一个看起来很简单的问题。心智在哪里结束,世界从哪里开始?
传统的答案是,心智在大脑里,它的边界就是颅骨。但克拉克和查尔默斯用一系列思想实验挑战了这个假设。
他们的核心主张是,认知过程并不只发生在大脑内部,环境本身可以成为认知系统的一部分。
他们的经典例子是这样的:
一个健忘的人Otto患有阿尔茨海默症,他把重要信息都记在随身携带的笔记本里。每当需要某个信息时,他查阅笔记本,然后据此行动。
和一个大脑功能完好、能直接从记忆中提取信息的人相比,Otto通过笔记本完成了同样的认知功能。那么,这本笔记本是不是Otto认知系统的一部分?
克拉克和查尔默斯的答案是:是的。
这个思想后来被称为「主动外在主义」(Active Externalism)——环境在驱动认知过程方面扮演着主动角色,认知不只发生在大脑里,而是发生在「大脑-身体-环境」这个耦合系统之中。
白板、草稿纸、IDE、搜索引擎、电子表格、任务管理系统,这些工具不只是「大脑的辅助」。
在某种意义上,它们是认知系统本身的组成部分。一个善用外部工具的人,其认知能力不再只来自头骨内那1.4千克左右的神经组织。
这个洞察对理解AI有很深的含义。我们通常把一个AI模型想象成一个封闭的黑箱,仿佛它的能力完全由内部参数决定,外部环境只是输入条件。
但如果认知本质上是环境耦合的,那么对AI系统来说,它所处的信息环境、可用工具、记忆结构、任务流程,就不是系统之外的附加物,而是系统能力本身的一部分。
换句话说,一个AI系统有多聪明,和它工作在一个怎样的环境里,是密不可分的。
近几年,AI工程师圈子里越来越常听到一种观察。
在不少应用场景中,模型能力已经足够强,制约表现的往往不只是模型本身,而是它接收到的上下文是否准确、充分、结构合理。
一种常见的失败模式是:一个经过精心训练的AI模型,面对一个按理说应该能够处理的任务,却一再做出错误决定。表面上看像是模型能力不行,但仔细分析会发现,问题未必出在推理能力本身,而可能在于模型看到的信息是碎片化的、不连贯的,或者包含了大量无关噪声,导致它无法判断什么重要、什么可以忽略、什么需要进一步确认。
研究AI Agent的Manus团队分享过一个数据。在他们系统的实际运行中,平均完成一个任务大约需要50次工具调用;
每产生1个token(词元)的输出,约对应100个输入token。这意味着,Agent的大部分token预算都消耗在「处理和管理上下文」上,而不是单纯用于「生成答案」。
Anthropic在其发布的上下文工程实践文章中给出了一个简洁的定义:
所谓上下文工程,就是在模型推理时,优化那些被送入模型的token的有效性。它不只是写一个好的提示词(prompt),而是设计整个信息系统。
哪些信息应该进入上下文、什么时候进入、以什么结构呈现;哪些信息应该被过滤掉;历史交互又如何被压缩和传递。
也可以把上下文理解为Agent的操作系统。操作系统不稳定,程序再好也很难跑稳。
这个视角让我们重新理解了「模型能力」这个概念。如果相同的模型,在不同的上下文环境里能产生质量差异很大的输出,那么「能力」究竟属于模型,还是属于模型加上它所处环境的整体系统?
这个问题没有简单答案,但它提示我们,把模型能力和环境因素割裂开来讨论,会过度简化问题。更有意义的能力,是系统在特定环境中展现出来的能力。
「上下文工程」(Context Engineering)这个词,大约在2025年中开始在AI工程圈里明显流行。
和「提示词工程」(Prompt Engineering)相比,它的范围更大,也更接近系统设计的层面。
提示词工程解决的是「怎么跟模型说话」,上下文工程解决的是「让模型工作在一个怎样的信息环境里」。后者涉及的范围要大得多。
记忆系统如何组织,工具调用结果如何格式化后回传,历史对话如何压缩而不丢失关键信息,哪些文档该被检索进来、又如何控制检索精度,当前任务的状态如何被清晰地维护并传递给下一步……这些问题加在一起,决定了一个AI系统是否真的能完成复杂的长程任务。
Cognition团队,也就是开发Devin这款AI编程助手的团队,曾有工程师这样概括:「Context engineering is effectively the #1 job of engineers building AI agents.」构建AI Agent的工程师,首要工作就是上下文工程。
这话听起来可能有些夸张,但仔细想想并不奇怪。
如果决策质量取决于信息环境的质量,而信息环境可以被设计,那么设计这个环境,自然就是提升AI系统表现最直接、最有效的手段之一。
这也改变了我们理解「AI系统设计」的方式。过去,人们对AI系统的优化集中在两个维度,模型本身(更多参数、更好的训练数据、更强的架构),以及任务指令(更清晰的提示词、更好的少样本示例)。
但上下文工程提出了第三个维度:信息环境的架构。
具体到实践层面,这包括短期记忆的维护与清理、长期记忆的存储与检索策略、工具系统的组织与调用逻辑、子任务之间的信息传递与路由,以及整个系统如何减少信息噪声、降低决策搜索空间。
这些问题合在一起,构成了「让AI在复杂环境中持续做出正确决策」的工程核心。
从这个角度看,扩展心智理论里的那个观察——笔记本可以是认知系统的一部分——在AI工程实践中找到了具体落点:良好设计的上下文系统,就是AI的外部认知结构。
现在可以把前面几条线索拉到一起,看一个更完整的图景。
Russell和Norvig说,AI可以从理性智能体的角度来理解,智能的核心是在环境中采取行动。西蒙说,真实决策很少拥有追求全局最优所需的条件,往往是在约束中做出足够好的选择。
克拉克和查尔默斯说,认知并不局限于大脑内部,也可以与环境耦合。上下文工程的实践者们发现,在许多Agent工程场景中,模型能力不再是唯一瓶颈,信息环境的质量正在成为关键变量。
这些观点从不同方向指向了同一个结论:单一模型的「参数智能」仍然重要,但单纯堆叠模型能力的边际收益正在变小;系统级的架构能力,正在成为拉开差距的地方。
这种「系统级智能」包含什么?
大致可以理解为下面几个要素。
能够持续接收和更新信息的记忆系统,能够与外部工具和数据源交互的工具体系,能够在复杂任务中做任务拆解和子任务协调的规划能力,能够对决策结果进行反馈和校验的循环机制,以及把这些部分组合在一起的上下文架构。
这也是为什么近几年多Agent系统、工具调用标准(比如MCP协议)、记忆管理框架这些方向越来越受到关注。
它们表面上看各自独立,但本质上都在做同一件事。优化AI系统的决策环境,让模型在更好的信息条件下采取更合适的行动。
有一个误解值得澄清。很多人把「更强的AI」等同于「更大的模型」,认为只要参数足够多、训练数据足够大,问题就会自然解决。
这种思路在某些场景下有效,但它忽略了一个基本事实,即使是最强的模型,如果工作在一个混乱、失真、结构糟糕的信息环境里,输出质量也会大打折扣。
反过来,一个相对普通的模型,如果工作在一个经过精心设计的上下文环境里,往往能产生出乎意料的好结果。
这种现象和人的工作状态很相似。一个聪明的人,如果信息来源混乱、没有有效的工作流程、无法追踪任务进度,效率和决策质量也会明显下降。
而一个能力没有那么突出的人,如果拥有良好的信息系统、清晰的流程设计和有效的协作工具,往往能超水平发挥。
智能,从来都不只是「脑子里装了什么」,而是整个决策系统和它所处环境的共同产物。
智能不是知识密度,而是一个系统在复杂环境中持续提升决策质量的能力。
这句话里有两个关键词。
一个是「系统」——不是单个模型,而是模型加上它所处的信息环境、工具体系、记忆结构所形成的整体;
另一个是「持续」——不是一次答对,而是在不断变化的条件下稳定地做出正确判断。
从这个角度重新看待AI的发展,会发现我们正处于一个有趣的转折点上。
模型能力的提升仍在继续,但竞争的重心正在悄悄发生移动——从「谁的模型更大」,转向「谁的决策系统更好」。这个转变还没有完全发生,但趋势已经很明显。
智能工程的重点,不只是训练一个更大的模型,而是设计一个能让模型持续做出更好决策的环境。
这是一件比堆参数更难、也更有价值的事情。