今天 AI 记忆系统又进了一步:Engram、Claude Code、EdgeClaw 正在把“长期记忆”做成工程能力 最近一波关于 AI Agent 记忆系统的更新,很值得放在一起看。 一边,是面向开发者的开源图记忆库 Engram Memory SDK;一边,是 Claude Code 对长期任务记忆架构的极简重构;另一边,则是 OpenBMB 在 EdgeClaw 2.0 中把多级记忆能力正式产品化 Engram:把“摄入一次、低成本回忆很多次”做成现实 Engram Memory SDK 是一款面向智能体的开源图记忆开发库,核心思路非常直接: 在摄入阶段调用一次大模型,把实体与关系抽出来;之后回忆阶段不再依赖大模型 这个后台子代理会在不打扰主流程的情况下,自动做几件事: •合并重复信息 •解决矛盾内容 •修剪无用数据 •完成类似“睡眠巩固”的记忆整理 如果说 Engram 强调的是“低成本 recall”,那 Claude Claude Code 直接把记忆写进工作流纪律,EdgeClaw 把记忆做成多级组件,Engram 则把记忆抽象成开发基础设施。 2.
上周末,DeepSeek 团队联合北京大学在 GitHub 平台发布了名为《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》的最新论文,首次提出名为 Engram 的“条件记忆”技术,为解决上述问题提供了革命性思路 而 DeepSeek 这次 Engram 的“条件记忆”技术将模型的"记忆"与"计算"能力解耦,实现了"查算分离"的全新架构范式。 而 Engram 模块,就是“条件记忆”思路的落地实现——高效、可扩展的“AI专属档案库”。 四、MoE与Engram的最优配比 在稀疏大模型设计中,有一个核心问题:固定总参数量和计算预算时,该如何分配条件计算(MoE)和条件记忆(Engram)的稀疏容量? 八、结语:条件记忆将是下一代大模型的核心构件 Engram 架构的出现,本质上是对大模型“任务分工”的重新定义,通过条件记忆与条件计算的互补,让模型的不同部分各司其职,实现了“性能、效率和可扩展性”的三重突破
论文提出了一个叫 Engram 的条件记忆模块:把经典 N-gram 做成现代化的 O(1) 查表记忆外挂,用确定性哈希在巨大表里秒级定位向量,再通过门控把“记忆向量”注入 Transformer 主干 一句话翻译: 大模型终于有了“物理外挂海马体”——记忆与计算开始解耦。 这不是一个小技巧,这是一个方向:LLM 的稀疏性不止 MoE 的“算得少”,还可以是 Engram 的“记得快”。 1)把 N-gram 从垃圾堆里捡回来,做成“可扩展的条件记忆” Engram 的思想很“复古”:N-gram。 3)存储稀疏:比 MoE 更彻底的“只读我需要的记忆” MoE 是“只算部分专家”,仍然需要路由与激活管理。 Engram 是“只读少量记忆”,并且通过确定性地址减少路由负担。 这就是 Engram 的长期主义: 它没有用更贵的算力去压缩问题,而是用更朴素的结构把问题拆开——让“计算”去做计算,让“记忆”去做记忆。
在输入句子之后,模型一边正常算,一边做了一件“偷偷的事”:局部片段触发记忆:当模型读到输入句子的时候,它把这几个词的组合,当作一个“查询键”,去记忆库进行查询。 整体的框架流程论文中已经画出来了~如果用一句话概括:MoE解决的是“算得更聪明”(条件计算),Engram解决的是“记得更便宜”(条件记忆)。两者是互补结构。 关键发现:SparsityAllocation出现“U型规律”,MoE和Memory要配比论文中提出一个很有意思的实验设问:在固定总参数预算下,MoE专家参数与Engram记忆参数,怎么分配最好? Engram的“门控(gating)”确实学会了:只在“这是一个稳定、固定的局部模式”时才强力介入,而不是对所有token都乱用记忆。 目前DeepSeek在走极致化的“稀疏”路线:MoE:计算的稀疏化Engram:存储的稀疏化如果这条路跑通,未来可能出现一种很有代表性的架构形态:小而精的推理核心+可扩展、可更新的超大记忆库。
它的灵感来自认知科学中的"印迹记忆"(Engram)概念——人类大脑中存储特定记忆痕迹的神经元集群。 Engram的思路是:在Transformer之外,给模型加一个独立的"记忆模块",通过高效的查找机制直接定位到需要的知识。Engram的底层是对经典N-gram模型的现代化改造。 记忆输出通过一个门控机制与Transformer的隐藏状态融合。门控值由模型自己学习——如果当前任务不需要外部记忆,门控值趋近于0,Engram的影响可以被自动忽略。 这种设计的一个直接好处是:Engram和MoE提供了两个正交的稀疏维度。MoE在参数空间做稀疏激活(选择哪些专家参与计算),Engram在记忆空间做稀疏查找(选择哪些知识参与推理)。 如果你有自己的垂直领域模型,Engram的"外挂记忆"思路可以用来注入领域知识——不需要重新训练整个模型,只需要在记忆表中写入专业知识对应的嵌入向量。
它解决的是:参数规模 ≠ 计算量必须线性增长但 DeepSeek 的观察更进一步:即便在 MoE 中,用“专家网络”去记忆固定模式,仍然是一种浪费。于是 Engram 出现了。 二、Engram 在做什么?一句话:该查的,别算“Engram” 是神经科学中的术语,意为 记忆痕迹。在这篇论文里,它被实现为一个可扩展、可学习、可条件触发的记忆模块。 不管这个表里存了多少“记忆”,一次检索的成本几乎不变。这意味着什么?模型可以用极低的算力,调用海量“已知模式”。 MoE 的稀疏性,是:条件计算只激活少量专家网络Engram 的稀疏性,是:条件查找只命中极少量记忆条目两者解决的是不同问题。 如果说 V2 / V3 的关键词是 MoE 扩展效率, 那么 Engram 暗示的,是下一阶段的主题:记忆与推理的结构性分离。
此前大多数关于记忆的研究都是基于分析特定大脑区域的损伤是如何影响记忆的。然而,在2012年,Tonegawa 的实验室研发了一种标记 engram (记忆痕迹)细胞的方法,这种细胞包含记忆的痕迹。 研究人员标记了大脑三个区域的记忆细胞:海马体、前额叶皮层和存储记忆中情绪联系的基底外侧杏仁核。 研究人员在恐惧反应实验发生后一天,发现事件的记忆被存储在海马体和前额叶皮层的 engram 细胞中。 在这一时期结束时,海马体的 engram 细胞变得沉默,在自然回忆中不再需要。然而,记忆的痕迹仍然存在:用光还原这些细胞仍然会促使动物保持不动。 在基底外侧杏仁核中,一旦形成记忆,engram 细胞会在整个实验过程中保持不变。这些细胞,是唤起与特定记忆相关的情绪所必需的,它们会与海马体和前额叶皮层中的 engram 细胞进行通信。 现在,研究人员只能监测大约两周的 engram 细胞,但是他们正在努力使这一时间变得更长。 Kitamura 说他认为一些记忆痕迹可能会无限期地停留在海马体中,存储一些仅偶尔会被检索到的细节。
其核心创新在于一套名为“双轴稀疏架构”的系统性设计,该架构由两大引擎驱动:“Engram条件记忆引擎”与“MoE混合专家计算引擎”。 这种“记忆+专家”的双引擎模式,首次在大模型中实现了人类认知机制般的“海马体-皮层”分离,将静态知识的存储与动态逻辑的推理解耦。 DeepSeek-V4的“双引擎”架构正是对这一生物机制的工程化复现:Engram条件记忆引擎≈海马体:高效、无损地存储和检索静态知识。MoE混合专家计算引擎≈新皮层:动态、灵活地处理复杂的推理任务。 第二章:第一引擎——Engram条件记忆:为大模型装上“海马体”2.1设计动机:为什么需要一个独立的记忆模块?在传统模型中,所有知识都内化于神经网络的权重之中。当用户询问“巴黎是哪个国家的首都?” Engram触发:上下文中的关键实体和短语会触发Engram模块,从其外部知识库中检索相关事实,并将这些事实作为“增强上下文”注入。
At last, long-term stimulus information stored in memory engram cells of different cortexes. And the memory of memory engram cells ensembles by a retrograde mechanism, the formula is derived[16] The memory retrieval process by memory engram cells that strengthened synaptic strength, increase or At last, long-term stimulus information stored in memory engram cells of different cortexes. Engram cells retain memory under retrograde amnesia.
V4的三大技术突破,分别针对当前大模型面临的三大核心挑战:幻觉魔咒(HallucinationCurse):事实性错误频发→Engram条件记忆。 第二章:第一大突破——Engram条件记忆模块:根治“幻觉”的活字典外挂2.1问题根源:为什么传统模型会“胡说八道”?传统Transformer模型将所有知识都内化于其数十亿甚至万亿的权重参数之中。 2.2Engram的设计哲学:为大模型装上“海马体”Engram模块的设计灵感直接来源于人类大脑的海马体(Hippocampus),后者负责快速、精准地检索长期记忆中的事实性知识。 Engram旨在为大模型提供一个独立的、外部的、可即时访问的“活字典”,实现条件记忆(ConditionalMemory)。 结论DeepSeek-V4的三大技术突破——Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力——共同构成了一场深刻的架构革命。
核心技术突破:从计算密集转向“记忆”优化DeepSeek-V4 的核心创新在于其革命性的 Engram(条件存储)架构。该技术将大模型的“静态知识记忆”与“动态逻辑计算”进行了有效分离。 Engram 架构允许模型将庞大的知识索引表存储在成本更低的 CPU 系统内存(DRAM) 甚至 NVMe SSD 中,仅在需要时进行高效检索。 实验表明,Engram 能精准识别如“亚历山大大帝”或“四大发明”等固化语言模式,减轻 Transformer 主干的负担,为万亿级参数规模的平价扩展铺平了道路。
从 N-gram 到 Over-Encoding,再到 Engram,优化「记忆范式」 与模型的信息骨架并行的,是关于模型如何「记忆」的探索。 DeepSeek 的 Engram 模块,正是在 Over-Encoding 等工作的基础上,将「静态记忆增强」升级为了「动态条件记忆」。 只有与当前上下文相关的记忆才会被激活并融入到后续计算中,不相关的则被抑制。 3. 解耦:由于查找地址是确定性的,Engram 可以被设计为与主计算流程解耦的独立模块。 DeepSeek 通过实验发现了「计算」与「记忆」资源分配的 U 型定律:无论是纯粹的计算(100% MoE)还是纯粹的记忆(100% Engram),都非最优解。 将大约 20%-25% 的稀疏参数预算从计算专家再分配给记忆模块,才能达到最佳性能。 小结 总的来说,mHC 和 Engram 体现出相似的演进路线,一种相互学习、相互启发的螺旋迭代。
MODEL1 与现有的DeepSeek-V3.2(V32)作为不同的模型架构出现 关键技术突破 统一回归512标准维度:优化了模型的核心参数配置 首创"值向量位置感知":在注意力机制上的重要创新 引入Engram 机制:条件记忆通过可扩展查找实现,解决Transformer缺乏原生查表记忆的缺陷 DSA(DeepSeek Sparse Attention)机制:实现显存效率与推理精度的双重跨越 内存优化技术 代码差异主要体现在 缓存布局优化 稀疏性处理改进 FP8解码优化 技术架构对比 特性 MODEL1 V3.2 架构类型 全新架构 现有架构 硬件支持 SM90 + SM100 主要SM90 核心创新 值向量位置感知 + Engram 传统MLA 内存优化 FP8 + 稀疏处理 标准优化 性能优势 MODEL1通过引入Engram机制,实现了: O(1)查表取向量:让模型直接获取知识而非逐层计算 条件记忆机制:将20-25%参数用于记忆存储
窗口只是表象,真正藏在更新里的,是mHC流形约束与Engram条件记忆两项底层架构落地。” 业内猜测,这次模型的更新,应该把之前论文提到的两项核心底层技术:mHC(流形约束超连接)与 Engram (条件记忆模块)也应用在新模型上了,只是没有公布出来。 03 — 条件记忆模块(Engram) 核心定义: Engram 是 DeepSeek 提出的“条件记忆”技术,核心目标是为大模型植入类似人类的“深层速记能力”。 2、N-gram 哈希嵌入: 使用 N-gram 切片和多头哈希映射技术,将短语存储到可扩展的静态记忆表中,实现 O(1) 的秒级检索。 Engram 关注的是“如何让模型想得更省力”,通过记忆检索解决算力浪费和显存限制。
它更多是一种精神上的鼓励,最具诱惑的地方可能是我们可以发展自身的精神能力,至少可以通过提高我们的记忆力或是集中力对参加一些竞赛有帮助。 在这样的大背景下,Karl Lashley提出了一个假想概念叫“Engram”,用以指代脑中负责存储记忆的单元(可惜这个假想概念现在看来全站不住脚,我甚至找不出它的标准中文译名。) 换言之,如果某次实验,恰好切掉了小鼠的Engram,那么小鼠就会在迷宫里迷路了。 于是Karl Lashley切啊切……他渐渐发现了一个脑区,对小鼠走迷宫的效率影响最大。 Karl Lashley 根据这些实验,Karl Lashley下结论:Engram就在这个区域里。而且,就算切掉一半,小鼠依然能正常活着,这说明小鼠对于脑区的利用率非常低。 后来,随着技术的进步,人们渐渐知道了负责显式记忆的区域,根本不在Lashley切的那块大脑上。而是在一个叫做“海马体”的,很小很小的一个脑结构中。
V4并非简单的参数堆砌,而是通过一场深刻的架构革命——双轴稀疏架构,从根本上重构了大模型的“记忆”与“计算”范式。 第二轴:Engram-条件记忆:负责高效、精准地存储和检索静态的、确定性的事实知识。 3.1Engram条件记忆模块:打造大模型的“活字典外挂”3.1.1设计动机传统模型将所有知识都编码在神经网络的权重中。 Engram模块旨在为模型提供一个外部的、可快速访问的“知识库”。 ),Engram模块的核心是一个可扩展的哈希查找表。
The formula for memory engram is given and the n-1th derivative of . of the derivation of memory engram. 2. gradually increases, and the memory engram image quality will not be compressed. 3. Situation 1: Memory engram does not lose image quality, and it will be better to obtain memory engram Engram cells retain memory under retrograde amnesia.
The critical angle and loss along the way of the memory engram for turbulent movement. The formula for memory engram is given and the n-1th derivative of . of the derivation of memory engram. 2. Situation 1: Memory engram does not lose image quality, and it will be better to obtain memory engram Engram cells retain memory under retrograde amnesia.
二、核心技术解密:双轴稀疏架构的范式革命DeepSeek-V4 的强大并非凭空而来,其背后是两大开创性技术的支撑:Engram 条件记忆模块 和 MoE(Mixture of Experts)条件计算。 这两者共同构成了其“记忆-计算分离”的双轴稀疏架构,这是对传统大模型设计的一次根本性颠覆。1. Engram 条件记忆:给AI配一本“超级活字典”想象一下,让一个学生去参加一场开卷考试。 他不需要把所有知识都死记硬背在脑子里(参数),只需要在遇到确定性问题时,快速翻阅手边的参考书(外部记忆)即可。Engram 模块正是扮演了这本“超级活字典”的角色。 工作原理:Engram 是一个独立于模型主干参数之外的、可检索的知识库。当模型在推理过程中遇到需要精确事实(如历史日期、科学公式、法律条文等)的问题时,它会首先向 Engram 发起查询。 MoE + MHC:打造稳定高效的“专家团队”如果说 Engram 解决了“记忆”问题,那么 MoE(混合专家)架构则解决了“计算”问题。
(如图,DeepSeek科学家团队提出的Engram架构) DeepSeek提出的Engram架构,正是这一技术的具体体现。 与Mixture of Experts(MoE)架构相结合,Engram通过条件记忆的方式,为每个模型输入提供快速的静态知识检索。 DeepSeek的研究团队在27B参数的模型上进行验证时,发现通过引入Engram模块,模型的长时效性推理和复杂推理任务的性能得到了显著提升。 Memory via Scalable Lookup:ANewAxisofSparsity for Large Language Models https://github.com/deepseek-ai/Engram /blob/main/Engram_paper.pdf 2、DeepSeek开源大模型记忆模块!