2026年做 Agents 应该看这篇全面的技术综述

技术人生黄勇

发布于 2026-03-11 17:31:06

750

文章被收录于专栏：技术人生黄勇技术人生黄勇

“ 研究在大模型基础上构建的智能体（Agent）如何在“内存记忆”、“工具学习”和“规划推理”三个维度上实现高效化，以解决现实部署中面临的算力、时延、成本等瓶颈问题。同时提示了评估智能体效率的困难，尝试建议用成本-有效性曲线来评估。”

虽然基于大语言模型（LLM）的智能体在处理复杂任务（如软件开发、科学发现）方面展现出强大能力，但其效率问题被忽视。

相比单轮的 LLM 对话，智能体由于递归调用内存、工具和规划，导致了指数级的资源消耗（如上下文窗口饱和、推理步骤过多）。

比如 OpenClaw 的爆火让很多人用上了方便好用的智能体，但是这个 token “吞金兽”带来的费用问题也是相当突出。“玩了一星期，几百块钱没了。”

因此，单纯的模型压缩不足以解决问题，必须从智能体系统本身的“记忆管理”、“工具调用”和“规划过程”入手进行优化。

高效智能体研究的演进轨迹（2023-2025）。蓝色-记忆，绿色-工具学习，紫色-规划，橙色-评测基准。

今天来学习上海AI Lab & 复旦&中科院&上交大等9所高校联合发表的《迈向高效智能体（Agents）：记忆、工具学习与规划综述》

—

定义

从上图可以看出，一个智能体从输入到最终形成解决方案，中间可能经历1～n的多步循环，第n步的输出成为第n+1步的输入成本，导致token的复合累加，产生高昂的推理成本和缓慢的响应时间。

效率智能体的定义与框架

效率：在固定的成本预算（如 Token 数、延迟、计算量）下最大化任务成功率，或在相同的效果下最小化成本。

一个基于LLM大模型的高效智能体的构建主要由三个核心组件组成：

Efficient Memory（高效记忆）‍
Efficient Tool Learning（高效工具学习）‍
Efficient Planning（高效规划）‍

每个组件又细分为构建（Construction）、管理（Management）和访问（Access）三个阶段。

—

高效记忆

一、记忆构建（Memory Construction）

智能体的记忆主要分为工作记忆（Working Memory）‍和外部记忆（External Memory）‍。

工作记忆：直接参与推理的上下文。分为：
- 文本记忆（Textual Memory）‍：如 COMEDY、MemAgent 通过大模型提取关键信息并压缩成简短的摘要，避免了“在中间丢失”（Lost in the Middle）的问题。
- 潜在记忆（Latent Memory）‍：如 Activation Beacon、MemoRAG 将长上下文压缩成 KV 缓存或隐藏状态，以极低的计算代价保存信息。
外部记忆：模型外的存储，如向量库或知识图谱。分为：
- 基于项目的记忆（Item-based Memory）‍：如 MemoryBank、Expel 通过提取和压缩对话记录来减少 Token 消耗。
- 基于图的记忆（Graph-based Memory）‍：如 GraphReader、Zep 构建知识图谱，组织实体关系以支持多跳检索。
- 层次化记忆（Hierarchical Memory）‍：如 MemGPT、ReadAgent 通过 OS 式的层级结构（FIFO 缓存、段落摘要）管理海量信息。

二、记忆管理（Memory Management）

由于记忆会无限增长，管理策略至关重要：

规则驱动（Rule-based）‍：如 MemoryBank 使用艾宾浩斯遗忘曲线进行衰减，或基于 FIFO 进行简单的淘汰。优点是低成本，但可能导致关键信息丢失。
LLM 驱动（LLM-based）‍：如 Memory-R1 通过 LLM 决定 ADD/DELETE 操作，或 A-MEM 生成式地重写记忆。优点是自适应，但增加了计算开销。
混合驱动（Hybrid）‍：如 LightMem 将规则触发的阈值与 LLM 的语义合并，在必要时才调用 LLM 进行合并或压缩。

三、记忆访问（Memory Access）

主要包括选择（Selection）‍和集成（Integration）‍：

选择：如 Human-like Memory 使用时间衰减和重要性得分，或 A-MEM 使用属性过滤来筛选记忆。
集成：如 DC-RS 将外部记忆压缩成 cheatsheet，或 ACE 将记忆转化为带有使用统计的策略 bullet 注入上下文。

四、多智能体记忆（Multi-Agent Memory）

除了单一智能体，还需要考虑多智能体系统的情况：记忆分为共享记忆（Shared）‍和本地记忆（Local）‍：

共享记忆：如 G-Memory 构建三层图结构，避免冗余上下文。
本地记忆：如 AgentNet 使用固定大小的模块存储路由信息，减少跨智能体的检索成本。

更具体的细节，可以看原文，详细列出了众多记忆管理项目及Github地址。

—

高效工具学习

Agent 智能体通过调用工具（如搜索 API、代码解释器）扩展能力。高效工具学习探索如何减少工具调用次数和优化调用过程。

一、工具选择（Tool Selection）

面对海量工具库，直接在 Prompt 中塞入所有工具描述是不可行的。

外部检索器（External Retriever）‍：如 ProTIP 使用对比学习将查询和工具描述嵌入语义空间，通过相似度检索相关工具。
多标签分类（Multi-Label Classification）‍：如 TinyAgent 训练小模型直接预测需要的工具集合。
词汇检索（Vocabulary-based Retrieval）‍：如 ToolkenGPT 将工具嵌入词表，模型生成特定 Token 时即触发工具调用。

二、工具调用（Tool Calling）

重点在于参数填充和执行方式：

原位填充（In-Place Parameter Filling）‍：如 Toolformer 让 LLM 在生成过程中直接填充工具参数。
并行调用（Parallel Tool Calling）‍：如 LLMCompiler 启发式地分析工具调用图，允许多个无依赖的工具并行执行，极大降低延迟。
成本感知（Cost-Aware）‍：如 BTP 将工具调用视为背包问题，在预算约束下选择最优工具组合。

三、工具集成推理（Tool-Integrated Reasoning）

在复杂任务中，工具调用与自然语言推理需要紧密结合。

自适应搜索（Adaptive Search）‍：如 TableMind 采用 “计划-执行-反思” 循环，通过动态搜索路径来优化推理过程。
边界意识（Boundary Awareness）‍：如 SMART 通过数据集训练模型判断何时应使用工具进行参数推理，何时应直接使用自然语言推理。

论文原文中也有一张详细的表格，列出了分类后的工具学习项目地址。

工具的使用和实现可以参考：《Skill设计白皮书：Anthropic官方推荐的构建方法与避坑指南》。

—

高效规划

高效规划（Efficient Planning）

涉及如何制定执行步骤，主要关注步骤压缩和协作效率。

一、Single-Agent Planning Efficiency（单智能体规划效率）

在单体智能体中，规划是决定智能体如何在多步决策空间里行动的核心。效率问题主要来源于“想太深、搜太贵”。因此，考虑多种方法来优化单体推理的深度和宽度。

1、选择性思考（Selective Thinking）‍：
- 核心思想：通过自适应预算与控制，让智能体在不损失效果的情况下少算。
- 具体实现：引入“快思考/慢思考”（Fast/Slow Thinking）机制，根据任务复杂度动态分配推理预算，避免在简单任务上进行深度搜索。
2、结构化搜索与代价感知（Structured Search & Cost-Aware）‍：
- 核心思想：在搜索过程中进行剪枝，降低搜索成本。
- 具体实现：利用结构化搜索（如任务分解、路由）和代价感知（Cost-Aware）技术，使用类似 A* 搜索的启发式评估函数（Heuristic）来估计每一步的价值，从而剪去不必要的搜索分支。
3、任务分解与先规划后执行（Task Decomposition）‍：
- 核心思想：将复杂任务拆解为子任务，先制定高层计划，再逐步执行。
- 具体实现：通过“先规划后执行”（Plan-Then-Act）的策略，将大问题分解为多个小问题，减少每一步的搜索深度。
4、记忆与技能的复用（Memory & Skill Reuse）‍：
- 核心思想：通过策略优化和记忆获取，把高效规划内化或复用。
- 具体实现：智能体通过复用已存储的经验（如策略、技能库）来减少重复规划的次数，越用越省。

二、Multi-Agent Collaborative Efficiency（多智能体协作规划效率）

在多智能体系统中，效率问题主要来源于“聊太多、通信太重”。因此降低协作开销来达到高效的目的。

1、拓扑效率（Topological Efficiency）‍：
- 核心思想：通过稀疏压缩的通信拓扑来降低交互成本。
- 具体实现：相比于密集的冗余交互，采用稀疏的通信网络（如图结构）来减少消息传递的次数和数据量。
2、协议与上下文优化（Protocol & Context Optimization）‍：
- 核心思想：简化通信协议和上下文，减少不必要的交流。
- 具体实现：优化通信协议（Protocol），精简上下文信息，确保每一次通信都携带高价值的信息，避免信息冗余。
3、协同蒸馏（Coordination Distillation）‍：
- 核心思想：通过教师-学生式的知识迁移来提升协同效率。
- 具体实现：利用蒸馏技术（Distillation）将经验或策略从一个智能体转移到另一个智能体，实现跨智能体的知识共享，从而减少每个智能体的学习成本。

智能体规划的效率优化既要考虑单体的深度推理成本，也要考虑多体的协作通信成本。涉及到从“深度”（单体思考的深度）和“宽度”（多体协作的广度）两个维度同时进行优化，以实现高效的智能体系统。

—

基准测试

衡量智能体的效率，不能只看成本（便宜），而要在保证效果（任务成功率）的前提下进行。

效率可以从两个互补的角度来评估：在固定的成本预算下比较效果，或者在可比的效果水平下比较成本。

一、Memory（记忆）‍

效果基准：记忆的有效性通常通过下游端到端任务的成功率来间接评估（如HotpotQA、GAIA等交互式智能体基准），或通过直接评估记忆能力的基准（如LoCoMo、LongMemEval）来评估。
效率基准与指标：一些基准开始关注效率指标。例如，Evo-Memory引入了步骤效率来衡量达成目标所需的环境步数；StoryBench报告了运行时成本和令牌消耗；MemBench则明确纳入了读取时间和写入时间来衡量内存操作的开销。在方法层面，通常使用四类效率指标：
- 令牌消耗与API成本：最常用的指标，有些会进一步转换为货币成本（美元）。
- 时间指标：关注延迟和运行时开销，包括整体运行时、端到端延迟、推理时间、检索时间等。
- 资源指标：量化硬件消耗，如GPU内存使用量。
- 交互指标：捕获智能体与LLM或推理过程的交互强度，例如每次响应的平均LLM调用次数或推理步骤数。

二、Tool Learning（工具学习）‍

基准类型：工具学习的基准主要分为三类：

选择与参数填充：评估工具选择、参数填充和模式遵循能力。代表性基准包括MetaTool、Berkeley Function-Calling Leaderboard (BFCL)、API-Bank等。对于更复杂的多工具组合任务，则有NesTools、ToolBench等基准。
基于模型上下文协议的工具学习：随着Model Context Protocol (MCP)标准的出现，出现了如MCP-RADAR和MCP-Bench等基准，它们会明确评估工具选择效率、计算资源效率和执行速度等维度。
智能体式工具学习：针对需要迭代调用搜索API等复杂任务的基准，如SimpleQA、BrowseComp和SealQA。这些基准的问题通常难以仅靠模型内部知识回答，从而考验其工具调用能力。

效率考量：使用令牌数、延迟和工具调用轮次等指标来衡量效率。

三、Planning（规划）‍

效果基准：规划效果通常通过智能体基准（如SWE-Bench、WebArena）中的下游任务成功率来间接评估。

效率基准与指标：近年来出现了一些专门评估规划效率的基准。

Jobs等人基于Blocksworld领域提出的基准，会报告端到端执行时间、规划尝试次数、令牌消耗及相应的货币成本 。
TPS-Bench使用令牌使用量、端到端时间和工具调用轮次来评估效率，并提出了每次通过的成本这一指标，将基于令牌的成本与完成率联系起来，以进行跨模型的成本效益比较。
CostBench则在动态变化下对成本最优的工具使用规划进行基准测试，通过成本差距和与真实轨迹的路径偏差来评估效率。

方法中的效率指标：除了上述基准，许多规划方法自身也会评估效率，常见的指标包括令牌消耗、运行时，以及从搜索深度和广度角度考虑的平均成功所需节点/状态数、试验次数、迭代次数等。

总体来说，作为一项新兴技术，评估智能体效率的较为困难。传统的有效性指标（如准确率）无法全面衡量成本，作者建议采用成本-有效性曲线（Pareto Front）来评估。

—

挑战及未来方向

1、建立统一的智能体记忆效率评估框架：当前，不同的记忆方法和基准使用不同的效率维度（令牌、时间、资源等）和术语，且定义方式（如按查询、按操作、按回合）不一致，导致现有效率数据无法在论文间直接比较，难以系统分析不同记忆设计的成本-性能权衡。

2、智能体潜在推理：近期，在连续隐藏表示中进行计算的潜在空间推理受到关注，它能减少令牌开销并可能保留更丰富的信息。

然而，现有工作主要集中在独立的LLM场景，智能体潜在推理（涉及工具使用、长程规划、记忆管理等）仍相对未被充分探索。为智能体量身定制潜在推理机制是一个有前景的未来方向。

3、面向部署的智能体设计：智能体系统应更具“部署意识”。

例如，多智能体设计可以以真正的多模型部署或单模型角色扮演流水线来实现，这两种方式在编排开销、延迟和可靠性上差异巨大。

未来工作应在匹配的资源预算下比较这些方案，并报告端到端的成本效益指标，以明确增加更多智能体带来的性能提升是否值得额外的复杂性。

4、基于MLLM智能体的效率挑战与方向：尽管基于多模态大语言模型（MLLM）的智能体方法迅速涌现，但其效率问题相对未被充分探索。

在现实部署中，由于需要在严格的延迟和计算预算下快速响应，效率至关重要。将文本中心的效率策略迁移到多模态智能体存在挑战，因为后者通常在不同的动作空间和任务结构（如基于GUI或具身交互）中运行，且多模态感知和 grounding 会引入额外的延迟。