以大模型 LLM 为基础的人工智能体 AI Agent 正在悄悄成为我们与数字世界打交道的新方式——你可以把它理解成一个把大语言模型的推理能力,和规划、记忆、以及调用工具等操作打包在一起的产品。
例如,最新很火的小龙虾🦞 我在云端搭了个“贾维斯”:Moltbot(Clawdbot)云端部署与初体验
它正迅速变成连接我们日常工作生活和大模型之间的那根实用“数据线”。
今天介绍的这篇论文综述梳理了AI Agent 领域的整体拼图。它可以分成三个核心模块来讨论:
第一是推理与思考,比如怎么用思维链把复杂问题掰开揉碎了想,怎么让代理自我反思、验证自己的判断,以及在各种限制条件下依然能做出合理的决策;
第二是规划与控制,从最简单的“下一步做什么”的反应式策略,到能分层、能走一步看多步的复杂规划器;
第三则是工具调用和环境交互,例如检索信息、执行代码、调用API,甚至看懂多模态的输入。
目前关于这方面的研究可以放入一个统一的框架里,从三个维度来归类:
首先是 Agent的内部组件,比如策略模型(或者说LLM核心)、记忆模块、对世界的理解模型、规划器、负责调谁的工具路由器,以及负责结果的评审;
其次是 Agent的协作方式,是单兵作战还是多智能体协同,是集中式指挥还是分布式协调;
最后是 部署场景,是离线分析型的,还是在线实时交互的,是安全至上的任务,还是开放探索型的任务。

图1:AI代理和代理执行循环(推理、工具和内存)概述
论文也梳理了设计这类系统时不得不面对的几个关键因素:
你是要快还是要准,要让它自主还是要留够控制权,要它能干还是要它可靠?
与此同时,还有一些“隐藏成本”经常被忽视,比如系统的不确定性怎么处理,长期任务里的信用分配怎么搞,工具和环境本身的不稳定,还有重试机制和上下文窗口膨胀带来的开销——这些都会让实际评估变得比想象中复杂得多。
论文最后盘点了当前主流的评测方法,包括任务套件、人类偏好和效用指标、在约束条件下能不能成功,以及系统的鲁棒性和安全性。
同时,也点出了几个还没解决的开放问题:比如如何给工具调用加上可靠的护栏,怎么管理可扩展的记忆和上下文,如何让 Agent 的决策过程可解释,以及在真实负载下,怎么保证评估是可复现的。

图2.以Agent为中心的AI范例:嵌入工具和环境交互循环中的模型
01
—
自主Agent模式
大型语言模型(LLM)是现代 Agent 的主导策略核心,模型展现出强大的指令遵循和上下文学习能力,使得无需重新训练即可快速引导能力。
然而,LLM 本质上并未接触真实世界:如果没有外部证据和可执行检查,它们可能生成看似合理但不正确的陈述。
这促使出现了工具中心和检索中心的 Agent 设计,将模型视为一个编排器,跨越可信工具和数据源。即 Agent 不仅是文本生成器,更是一个控制器,将意图转化为在世界(软件仓库、浏览器、机器人)中执行的程序。
核心思想是将 Agent 行为视为一个序列模型,记录观察、推理/计划、工具调用和结果的轨迹。一个通用的执行循环如下:
1、收集观察:从环境中获取最新状态。
2、检索记忆:从记忆库中检索相关上下文(如检索或内部摘要)。
3、生成动作:基于当前上下文和记忆,使用策略模型提议动作(可能是自然语言指令或工具调用)。
4、验证与约束检查:使用批评者或预定义约束验证动作的安全性和正确性。
5、执行工具:在环境中执行工具调用,更新环境状态和记忆。
构建 Agent 的实际过程是一个工程过程,结合了模型选择、接口设计和评估。一个常见的做法是:
1、选择骨干模型:选择一个强大的基础模型。
2、约束接口:定义工具模式(输入/输出),强制执行允许列表(Allowlist),并创建一组规范的动作模板(如搜索、检索、执行、询问澄清)
3、设计控制循环:一个最小的循环包括(检索上下文)→(计划)→(调用工具)→(验证)→(更新记忆)→(重复)。
4、优化学习信号:如果有专家演示,使用行为克隆进行微调;使用 RLHF 改善响应的帮助性和安全性;引入验证和回溯循环以降低错误率。

图3:编排 Agent 模式,具有到内存、工具、验证器和环境的显式接口
在实际实践中,许多系统采用了“轨迹优先”的数据循环:让代理在真实环境中运行,记录完整的轨迹(提示、工具调用、结果),并持续挖掘失败案例用于有针对性的改进(如改进提示、新增工具、微调纠正轨迹)。这改变了学习的范式,从一次性的模型训练转变为持续的系统精炼。
02
—
Agent 学习
Agent 学习涵盖了多个层次:

图4:跨机制、系统和基础模型的agent AI学习概述
强化学习(RL):RL 是代理行为的自然选择,因为它直接优化长期回报(通常形式化为马尔可夫决策过程),学习何时收集信息、何时行动以及如何在多步轨迹中恢复。然而,RL 在工具丰富的真实环境中面临瓶颈:奖励稀疏、回滚成本高、工具调用代价高,这促使采用离线 RL 或安全 RL。

图5. 用于智能体策略和控制器的强化学习(RL)流程
模仿学习(IL):IL 是一种务实的途径,当有专家演示(如人类记录的轨迹)时。行为克隆(Behavioral Cloning)训练策略匹配专家动作,但易受分布漂移(Compounding Errors)的影响。DAgger 等方法通过在学习策略诱导的状态上收集纠正演示来缓解这个问题。

图6. 基于演示和交互轨迹的模仿学习(IL)
传统 RGB(规则/图/行为树):在 RL/IL 之前,许多生产系统依赖于传统的基于规则的策略和行为树,因其可预测性和易审计性而被保留,用于约束关键的安全行为。

图7. 传统RGB组件:基于规则的策略、图形规划器和行为树
上下文学习(In-context Learning):这是一种无需参数更新的快速适应方式。通过少量示例,模型可以学习如何使用工具、如何分解任务。链式思考(Chain-of-Thought)提示显著提升了多步推理能力,而 ReAct 形式化了在语言模型中交替进行推理和行动的模式。

图8. 通过提示、示例和动作模式为智能体提供情境内学习
系统优化(Compute Allocation):在实际部署中,关键是“预算分配”:何时花费额外的计算进行搜索或反思,何时快速执行。搜索式规划(Tree-of-Thoughts)和自我一致性(Self-consistency)在错误时引入额外的成本(采样、搜索深度),但显著提升了可靠性。

图9. Agent 的优化问题
基础模型适配:基础模型的选择影响代理的能力。最新的模型提供更强的指令遵循和推理能力,但系统设计(如工具约束)往往比模型大小更重要,因为它们约束了模型的潜在破坏性。
部署基础设施:安全关键的部署需要沙盒执行、模式验证、身份/权限执行、审计日志等。对于 Web 和机器人代理,这包括模拟器或安全的浏览器环境,以防止恶意操作。

图10. 安全部署的 Agent 基础设施:沙盒、模式、权限和日志记录
预训练:前置训练构建了广泛的世界知识和多模态感知能力(如 VLM 能够读取 UI 屏幕),这对于“接地”(Grounding)至关重要。
微调:指令微调和对齐(如 RLHF)是关键,塑造模型的帮助性和安全性。工具使用学习可以是显式的(在轨迹上微调)或隐式的(通过强化学习从工具反馈中学习)。

图11. 代理基础模型:工具使用和规划的预训练与微调
04
—
Agent 分类
根据 Agent 交互的主要位置(文本/工具、物理实体、模拟环境)、生成的目标(内容/世界/体验)以及推理底层(知识、逻辑、情感、神经符号结构),对 Agent 系统进行分类如下。

图12. 多能智能体的应用领域和代表性能力需求
特点:旨在解决跨领域的异构任务(编码、浏览、企业工作流),使用共享的策略核心加上模块化的工具和记忆。 挑战:长期任务中错误会累积,工具失败(如搜索错误、代码编译失败)主导了错误来源。评估不仅要看最终答案是否合理,更要看整个执行轨迹是否可靠。 解决方案:使用检索增强生成(RAG)获取证据,使用模块化工具路由(MRKL)分离语言理解和专用工具,并使用 ReAct 进行轨迹化推理。
特点:在物理世界中操作(机器人、智能设备),受实时约束(延迟、物理安全)限制。 挑战:感知错误和执行噪声可能导致安全问题。需要严格的安全约束和低延迟的控制。 解决方案:层级式控制(Hierarchical Control),高层规划使用 LLM,低层执行使用传统或 RL 控制器,结合工具进行可行性检查。
特点:结合视觉和语言,处理 UI、文档、视频等。 挑战:视觉幻觉、OCR 错误、视觉检索不准是主要瓶颈。安全风险包括图像中的 Prompt 注入。 解决方案:将感知拆分为工具(OCR、检测、检索),使用 VLM 进行指令调度,使用批评者检查视觉输出的可信度。
特点:生成长篇内容、角色或模拟世界(如 NPC、社交模拟)。 挑战:长期一致性(人物性格、世界状态)和安全约束(避免生成有害内容)。 解决方案:使用持久记忆(Episodic Memory)和检索来保持一致性,使用批评者检查约束。
05
—
Agent 任务
Agent 越来越多地被部署为工作流执行器,而非静态聊天界面:它们将用户意图转化为跨工具、数据源和环境的多步骤操作。
遵循图18中的任务导向框架,按领域对应用程序进行组织,这些领域强调不同的能力(交互、感知、规划、工具使用和长期控制)。对于每个任务类别,总结了典型的模型、代理技术、当前挑战以及特定代理设计有效的原因。

图18. 代理应用程序全景:任务类别和能力要求
现状:代理用于从仓库中检索上下文、生成补丁、运行测试。成功需要跨文件的上下文管理和对编译器错误的理解。挑战:检索质量决定了补丁的正确性。编译错误是常见的噪声来源。评估:使用 SWE-bench 等基准,评估端到端的 Issue 解决率,而不仅仅是补丁生成的“正确性”。
现状:代理操作真实的网站,点击、填写表单、导航页面。挑战:UI 的布局经常变化,页面可能包含恶意脚本或注入指令。工具(浏览器)的鲁棒性是关键。评估:使用 WebArena 等真实的 Web 环境基准,评估长期任务的成功率和鲁棒性。
现状:代理访问 CRM、票务系统、数据库,执行跨系统的自动化。挑战:访问控制严格(ACL),错误可能导致数据泄露或财务损失。需要审计日志。解决方案:使用 MRKL 风格的工具路由,强制执行工具模式(Schema),并在关键步骤要求人工确认。
现状:代理通过摄像头或屏幕与用户交互(如 AR 助手)。挑战:多模态感知的错误累积,隐私限制(无法记录图像)。解决方案:将感知拆分为专用工具,使用 LLM 进行编排,使用验证器在执行前检查指令的安全性。
06
—
评估
评估 Agent 不仅要看“它说了什么”,更要看“它做了什么”。一个完整的评估框架应包含以下维度:
这是最基础的指标:代理是否成功完成了任务。例如,在 WebArena 中完成一个购物任务,在 SWE-bench 中修复一个 bug。
代理可能通过多次采样或搜索来提高可靠性,但这会增加延迟和计算成本。需要报告:
07
—
展望
尽管 Agent 系统取得了显著进展,论文表示,仍有多个核心挑战需解决:
结论:
Agent 系统正在将大语言模型从被动的聊天伙伴转变为主动的工作流执行者,跨越了文本生成的边界,深入到软件工程、网页操作、企业自动化、机器人控制和多模态交互等多个领域。
该论文综述了 Agent 的核心模式,强调了“Agent 即系统”的观点:可靠性和安全性不仅取决于模型本身,更取决于工具接口、验证机制和系统约束。
论文回顾了从 RL 到 In-context Learning 的学习策略,强调了在真实世界中,系统设计(如模块化架构、工具沙箱、安全防护)往往比单纯的模型规模更为关键。
评估方面,呼吁从单一的成功率转向多维度的度量体系,包含成本、轨迹完整性、鲁棒性和安全性。
未来的核心挑战在于如何实现可验证的工具执行、可扩展的记忆管理以及在受限预算下的自适应推理。只有解决了这些问题,AI Agent 才能从研究实验室走向可靠的大规模部署。
<完>
推荐阅读: