

设想你和一个 AI 助手聊了三个月。某天你问它:「我朋友 Caroline 七月那会儿在忙什么来着?」
今天主流的「记忆增强」Agent 大多会这样做:把你的问题丢进一个向量库,按语义相似度捞出一批最相关的片段,然后基于这堆片段作答。问题是,你这句话里几乎没有「Caroline 七月」的直接线索——相似度搜索只会捞回一大堆和「朋友」「最近」沾边的噪声,唯独漏掉真正的答案。
论文链接:https://arxiv.org/pdf/2606.06036
而一个真正像人的助手会怎么想?它会先愣一下,顺着记忆往回捋:七月……那段时间我们聊过 Nate 的电竞比赛,那场比赛正好是七月办的,Caroline 当时还提过她那阵子在准备一个剧本投稿——找到了。

这两种方式的差别,正是这篇来自新加坡国立大学(Bryan Hooi 团队)的论文想讲清楚的事。它的标题本身就是一句宣言:记忆是被重建的,而不是被检索的(Memory is Reconstructed, Not Retrieved)。论文提出的系统叫 MRAgent,核心洞见来自认知神经科学:人脑回忆从来不是「打开抽屉拿出一张照片」,而是由线索触发、一步步把碎片拼回完整经验的主动过程。
大模型有一种被研究者称为「锯齿状」的能力画像:做数学、写代码出类拔萃,可一旦任务需要在很长的交互历史里持续记事、跨越多次对话去回溯,它就明显力不从心。根子在于有限的上下文窗口——再长的窗口也装不下三个月的聊天记录。
于是大家给 Agent 外挂「记忆系统」。从最早的 RAG(把历史切块存进向量库、按相似度召回),到后来更结构化的知识图谱式记忆(显式记录实体与关系),方案越来越复杂。但论文一针见血地指出:这些系统骨子里都是被动检索。

被动检索可以归成两类,它们各有一道天花板:

论文把被动检索的病灶概括成一句话:它没法在访问记忆的同时进行推理。由此带来三个硬伤——无法根据中间发现修正策略(比如临时意识到「七月」是个时间锚点)、固定聚合方式不断累积噪声、过度依赖预先建好的结构因而难以扩展。
人脑是怎么做的?认知神经科学给出的图景是:回忆是一个序贯展开的重建过程。某个上下文线索先激活一小片「记忆痕迹」(engram),这片痕迹的激活又会反过来约束、偏置接下来能想起什么,如此一环扣一环,逐渐拼出一段连贯的记忆。而记忆本身又分两种——记录具体事件的情景记忆,和沉淀概念与知识的语义记忆。

MRAgent 几乎是照着这套机制来搭的。它要解决两个问题:其一,怎么把记忆访问从「一次性检索」变成「多步重建」;其二,怎么把记忆组织得便于联想式探索。答案分别落在两件东西上——一张关联记忆图,和一套主动重建机制。
MRAgent 不把记忆存成一堆扁平的可检索条目,而是组织成一张异构图,核心结构是 Cue–Tag–Content(线索–标签–内容):
标签的妙处在于它充当了语义桥梁。检索因此被拆成两步:先用线索点亮一小撮相关的标签,再顺着选中的标签去取具体内容。这样一来,Agent 可以在还没碰到昂贵的长篇情景内容之前,就靠标签判断「这条路值不值得走」,从而剪掉无关分支——既避免了 N 跳邻居那种组合爆炸,又比纯相似度多了一层语义引导。

这张图还按人脑的样子分了三层:情景层(Cue–Tag–Episode,沿统一时间线组织,专门支持「七月」这类时间推理)、语义层(Cue–Tag–Semantic,存人物属性、偏好、稳定事实,不必每次都翻长长的事件流)、以及更高一层的主题抽象层(把反复出现的模式归纳成主题节点,支持自顶向下先定位主题、再下钻到具体事件)。整张图由一条 LLM 蒸馏流水线自动构建:把输入流切成事件单元,再用 LLM 抽取标签与线索连成关系。

有了图,MRAgent 真正的引擎是主动重建过程。它不再执行一条写死的检索流水线,而是维护一个重建状态:当前可供下一步探索的「活跃元素集合」,加上之前已经积累下来的「重建上下文」。
在这张图上,Agent 可以做的动作既有正向(线索→标签、「线索+标签」→内容),也有反向(内容→「线索+标签」)——反向动作让已经取到的内容反过来激活新的线索,从而调头或改道。

整个过程是一个循环:

这正是开篇那个场景里「先想到七月、再顺藤摸到 Caroline」的过程——把中间发现实时变成新的检索约束,去够到被动策略永远够不到的证据。
论文还给了一条理论背书:在同样的检索预算下(步数 T≥2),主动检索严格强于被动检索——主动策略能表达的输入输出映射,是被动策略的真超集。他们甚至构造了一个「二叉树里捞针」的任务族证明:主动检索能做到零误差,而被动检索除非把预算开到指数级,否则误差无法消除。
光有漂亮的故事不够,关键看数。论文在两个长程记忆基准 LoCoMo 和 LongMemEval 上,对比了 RAG、LangMem、A-Mem、MemoryOS、Mem0 等一众强基线,分别用 Gemini-2.5-Flash 和 Claude-Sonnet-4.5 两个底座。
准确性——在 LoCoMo 上,以 LLM-Judge 综合分计,Gemini 底座下从最强基线的 68.31 提到 84.21(相对提升约 23%),Claude 底座下进一步做到 88.32。在交互更长、跨多轮会话的 LongMemEval 上,相对最强基线提升约 32%;而当用 Gemini 建记忆、换 Claude 来检索时,综合分一路冲到 86.76。提升最明显的恰恰是最难的多跳和时间推理类问题——这正是被动检索最容易翻车的地方。

成本——这才是让人眼前一亮的部分。在 LongMemEval 上按每条样本统计(含建库与检索):
方法 | Token 消耗 | 运行时间(秒) |
|---|---|---|
A-Mem | 632k | 1,122 |
MemoryOS | 273k | 3,135 |
LangMem | 3,268k | 1,209 |
Mem0 | 245k | 533 |
MRAgent | 118k | 586 |
MRAgent 把 token 压到 118k,是众多基线里最低的,比动辄六位数、甚至三百多万 token 的方案省出一大截。原因也顺理成章:它的建库阶段刻意做得很轻,把「梳理复杂关系」这件重活推迟到检索时、按当前问题的需要按需进行;再加上标签先帮忙剪枝,算力被牢牢锁定在和查询相关的证据上。又准又省,而不是用更多算力换准确率,这是它最有说服力的地方。

消融实验把功劳拆得很清楚。沿着 CE(线索直连事件)→ CTE(加入标签中介)→ CTC(完整结构)逐步加料,即便不做多步推理,性能也单调上升——说明标签确实在提供有效的语义引导。而在每种结构上,开启多步推理(蓝条)都稳定碾压只靠结构的版本(绿条),证明主动多步推理才是性能跃升的主因,一次性检索根本啃不动多跳问题。此外,去掉语义记忆层会明显掉点,说明情景记忆与语义记忆是互补的。
多轮分析则给出一张很直观的图景:单跳和时间类问题大约三轮就逼近满召回,而多跳问题在逐轮探索中召回率能再涨 30% 以上;更难得的是,Agent 能自己判断「证据够了该收手」——平均轮数和有效轮数几乎贴合,几乎没有冗余探索。论文还补了一刀:一味加大并行检索预算,替代不了更深的重建层数。

把这篇论文放回到大背景里看,它真正动的是一个范式假设:记忆系统不该是一个被动的「上下文供应商」,而应是一个会推理、会联想、会自己决定何时收手的主动参与者。当我们越来越期待 AI Agent 陪伴我们几个月、几年,能不能优雅地回溯长程记忆,可能比再多记住几条事实更重要。

当然也要冷静看待边界。MRAgent 的主动重建严重依赖底座模型的推理质量——它本质上是把记忆访问交给 LLM 来「开车」,底座越弱,路由和剪枝的判断就越不可靠(这也解释了为什么换上更强的 Claude 来检索,分数会再上一个台阶)。它目前的验证集中在对话型长程记忆基准上,迁移到代码、多模态、超大规模知识库时表现如何,仍有待检验。多步重建虽然总体省 token,但相比一次性检索引入了更多轮 LLM 调用,在对延迟极度敏感的场景里,这笔账需要重新算。
但方向是清晰的。下一代 Agent 的记忆,也许真的会越来越像我们自己的记忆——不是一座冷冰冰的档案库,而是一张随时能被一缕线索点亮、然后顺着联想一路重建下去的网。
🌟 关注“唐国梁TGLTommy”,一起持续追踪 AI 技术演进背后的长期趋势。
#大模型Agent #AI智能体 #AI大模型 #强化学习 #agentrl #Agent记忆 #AI论文 #LLM