Engram 的融合阶段,就是做精准筛选的工作。 五、Engram本质是“增加模型有效深度” 为什么 Engram 能带来这么显著的性能提升? CKA分析:通过比较 Engram 模型和 MoE 模型的层间表征相似性,发现Engram 的浅层表征与 MoE 的深层表征高度相似。 比如 Engram-27B 的第5层表征,和 MoE 基线的第12层最为接近,相当于 Engram 用更少的物理层数,实现了更深的语义理解。 Engram与RAG的区别 Engram 与目前非常流行的 RAG(检索增强生成)技术虽然都在解决模型存储与调取海量知识的效率问题,但其技术路径存在本质区别。
而这一次,DeepSeek有一次提出了新的技术,被称为Engram。 那么如果是有了Engram这个技术,会发生什么样的情况呢? 为了评估Engram真是在承载世界知识,论文中做了一个实验图对严重依赖外部世界知识的任务(比如TriviaQA),之前去掉Engram,整体效果只有baseline的29%对“知识已经在文章里、只需要阅读理解推理 ”的任务,去掉Engram的效果影响不大这种消融现象基本就能说明:至少一部分世界知识确实被“搬”进了Engram,而不是仍然全部压在Transformer参数里。 这进一步证明了:Engram只在“局部token组合形成一个稳定模式”的位置才强烈介入写在最后当前仍有几个现实问题:Engram是静态查表:为什么能对推理帮助这么大?
于是 Engram 这条路出现:不再把所有知识都塞进“会算的脑子”,而是把“会记的仓库”外挂出来。 技术线:Engram 到底干了什么? 2)关键不是“记得更多”,而是“让前几层不再做无聊体力活” Engram 最惊艳的地方,在于它对性能提升的解释: 很多模型的早期层在干“静态模式重建”(背诵型工作),Engram 把这些模式交给查表,等于释放了有效深度 Engram 类模块:把高频局部静态模式“内嵌式注入”,把推理从“读文档”中解放出来。 预测 3:MoE 的下一站是“混合稀疏”:算得少 + 记得快 MoE 解决计算稀疏,Engram 解决存储稀疏。二者组合会成为新的工程默认项: MoE 管会想,Engram 管会背。 关键出处 arXiv 摘要页与论文 PDF:Conditional Memory via Scalable Lookup (Engram) DeepSeek 官方开源仓库:deepseek-ai/Engram
Engram的思路是:在Transformer之外,给模型加一个独立的"记忆模块",通过高效的查找机制直接定位到需要的知识。Engram的底层是对经典N-gram模型的现代化改造。 门控值由模型自己学习——如果当前任务不需要外部记忆,门控值趋近于0,Engram的影响可以被自动忽略。这种设计的一个直接好处是:Engram和MoE提供了两个正交的稀疏维度。 知乎上的技术分析文章把Engram称为"一条不同于MoE的大模型稀疏化路径",这个定位非常精准。MoE解决的是"计算稀疏"问题,Engram解决的是"知识稀疏"问题。 3.研究Engram开源代码DeepSeek已经在GitHub上开源了Engram模块的代码。对于有定制化需求的开发者,可以提前研究Engram的接口设计,考虑如何把它集成到自己的模型中。 展开代码语言:BashAI代码解释#克隆Engram仓库gitclonehttps://github.com/deepseek-ai/Engram.gitcdEngram#查看项目结构#预期包含:模型定义
没有发布会,没有营销话术,只有一篇论文和一个新模块的源码——Engram。更耐人寻味的是,这篇论文的作者列表中,再次出现了 梁文锋 的名字。 于是 Engram 出现了。二、Engram 在做什么?一句话:该查的,别算“Engram” 是神经科学中的术语,意为 记忆痕迹。在这篇论文里,它被实现为一个可扩展、可学习、可条件触发的记忆模块。 MoE 的稀疏性,是:条件计算只激活少量专家网络Engram 的稀疏性,是:条件查找只命中极少量记忆条目两者解决的是不同问题。 可以这样理解:模块在干什么Engram快速回忆“我以前见过什么”MoE / Transformer认真思考“现在该怎么推理”在架构上,Engram 被放在较早的层级,用于模式重构与事实补全; 而深层网络 没人官宣,但信号已经很明显DeepSeek 并没有说 Engram 会直接进入 V4。
At last, long-term stimulus information stored in memory engram cells of different cortexes. And the memory of memory engram cells ensembles by a retrograde mechanism, the formula is derived [16 The memory retrieval process by memory engram cells that strengthened synaptic strength, increase or At last, long-term stimulus information stored in memory engram cells of different cortexes. Engram cells retain memory under retrograde amnesia.
其核心创新在于一套名为“双轴稀疏架构”的系统性设计,该架构由两大引擎驱动:“Engram条件记忆引擎”与“MoE混合专家计算引擎”。 Engram模块旨在解决这些问题,为模型提供一个外部的、可即时访问的“活字典”。 2.3.3释放骨干网络潜能角色转变:引入Engram后,Transformer骨干网络的早期层不再需要承担大量的静态知识重构任务。 Engram触发:上下文中的关键实体和短语会触发Engram模块,从其外部知识库中检索相关事实,并将这些事实作为“增强上下文”注入。 DSA预处理:整个1MToken(包括原始上下文和Engram注入的内容)被DSA的压缩机制处理,生成一个精简的“超级条目”列表。
今天 AI 记忆系统又进了一步:Engram、Claude Code、EdgeClaw 正在把“长期记忆”做成工程能力 最近一波关于 AI Agent 记忆系统的更新,很值得放在一起看。 如果把 Engram、Claude Code、EdgeClaw 放在一起看,我觉得至少有三点趋势已经很明确。 1. Claude Code 直接把记忆写进工作流纪律,EdgeClaw 把记忆做成多级组件,Engram 则把记忆抽象成开发基础设施。 2. Engram 的“摄入时抽取、回忆时免 LLM”是一种回答;EdgeClaw 的成本路由与分层上下文构造也是一种回答;Claude Code 的极简索引则是在源头减少无效上下文。 参考来源 •Engram Memory SDK:https://github.com/hackdavid/engram-memory[1] •EdgeClaw:https://github.com/OpenBMB
2.2Engram的设计哲学:为大模型装上“海马体”Engram模块的设计灵感直接来源于人类大脑的海马体(Hippocampus),后者负责快速、精准地检索长期记忆中的事实性知识。 Engram旨在为大模型提供一个独立的、外部的、可即时访问的“活字典”,实现条件记忆(ConditionalMemory)。 提升长上下文稳定性:无论关键信息位于1MToken上下文的任何位置,Engram都能确保其被完整、无损地检索到。 推理加速:结合MoE和Engram,V4的端到端推理速度相比同级别稠密模型提升了2.3倍以上。 Engram+DSA:Engram注入的外部知识片段也被纳入DSA的处理范围。
核心技术突破:从计算密集转向“记忆”优化DeepSeek-V4 的核心创新在于其革命性的 Engram(条件存储)架构。该技术将大模型的“静态知识记忆”与“动态逻辑计算”进行了有效分离。 Engram 架构允许模型将庞大的知识索引表存储在成本更低的 CPU 系统内存(DRAM) 甚至 NVMe SSD 中,仅在需要时进行高效检索。 实验表明,Engram 能精准识别如“亚历山大大帝”或“四大发明”等固化语言模式,减轻 Transformer 主干的负担,为万亿级参数规模的平价扩展铺平了道路。
然而,在2012年,Tonegawa 的实验室研发了一种标记 engram (记忆痕迹)细胞的方法,这种细胞包含记忆的痕迹。这种方法使研究人员得以追踪记忆存储和找回过程中的神经回路。 研究人员在恐惧反应实验发生后一天,发现事件的记忆被存储在海马体和前额叶皮层的 engram 细胞中。 在这一时期结束时,海马体的 engram 细胞变得沉默,在自然回忆中不再需要。然而,记忆的痕迹仍然存在:用光还原这些细胞仍然会促使动物保持不动。 在基底外侧杏仁核中,一旦形成记忆,engram 细胞会在整个实验过程中保持不变。这些细胞,是唤起与特定记忆相关的情绪所必需的,它们会与海马体和前额叶皮层中的 engram 细胞进行通信。 现在,研究人员只能监测大约两周的 engram 细胞,但是他们正在努力使这一时间变得更长。 Kitamura 说他认为一些记忆痕迹可能会无限期地停留在海马体中,存储一些仅偶尔会被检索到的细节。
窗口只是表象,真正藏在更新里的,是mHC流形约束与Engram条件记忆两项底层架构落地。” 03 — 条件记忆模块(Engram) 核心定义: Engram 是 DeepSeek 提出的“条件记忆”技术,核心目标是为大模型植入类似人类的“深层速记能力”。 实际效果与意义: 1、大幅降低算力浪费: 通过 Engram,模型在推理阶段的算力浪费可降低高达 90%,显著减少 GPU 显存需求。 3、硬件解耦: Engram 通过“空间折叠”技术,将数百亿参数存入主机内存(CPU RAM),缓解了对高带宽内存(HBM)的依赖。 Engram 关注的是“如何让模型想得更省力”,通过记忆检索解决算力浪费和显存限制。
在这样的大背景下,Karl Lashley提出了一个假想概念叫“Engram”,用以指代脑中负责存储记忆的单元(可惜这个假想概念现在看来全站不住脚,我甚至找不出它的标准中文译名。) 换言之,如果某次实验,恰好切掉了小鼠的Engram,那么小鼠就会在迷宫里迷路了。 于是Karl Lashley切啊切……他渐渐发现了一个脑区,对小鼠走迷宫的效率影响最大。 Karl Lashley 根据这些实验,Karl Lashley下结论:Engram就在这个区域里。而且,就算切掉一半,小鼠依然能正常活着,这说明小鼠对于脑区的利用率非常低。
第二轴:Engram-条件记忆:负责高效、精准地存储和检索静态的、确定性的事实知识。 3.1Engram条件记忆模块:打造大模型的“活字典外挂”3.1.1设计动机传统模型将所有知识都编码在神经网络的权重中。 Engram模块旨在为模型提供一个外部的、可快速访问的“知识库”。 Engram模块会使用这个查询向量,在哈希表中进行近似最近邻(ApproximateNearestNeighbor,ANN)搜索。 通用推理:在MATH、GSM8K等数学推理数据集上,得益于mHC和Engram的协同,准确率有显著提升。
MODEL1 与现有的DeepSeek-V3.2(V32)作为不同的模型架构出现 关键技术突破 统一回归512标准维度:优化了模型的核心参数配置 首创"值向量位置感知":在注意力机制上的重要创新 引入Engram 缓存布局优化 稀疏性处理改进 FP8解码优化 技术架构对比 特性 MODEL1 V3.2 架构类型 全新架构 现有架构 硬件支持 SM90 + SM100 主要SM90 核心创新 值向量位置感知 + Engram 传统MLA 内存优化 FP8 + 稀疏处理 标准优化 性能优势 MODEL1通过引入Engram机制,实现了: O(1)查表取向量:让模型直接获取知识而非逐层计算 条件记忆机制:将20-25%参数用于记忆存储
At last, long-term stimulus information stored in memory engram cells of different cortexes. And the memory of memory engram cells ensembles by a retrograde mechanism, the formula is derived[16] The memory retrieval process by memory engram cells that strengthened synaptic strength, increase or At last, long-term stimulus information stored in memory engram cells of different cortexes. Engram cells retain memory under retrograde amnesia.
DeepSeek 最近关于 mHC 和 Engram 的两篇文章,已经有很多解读,而且大家发现,这两篇论文背后都有一些来自字节的工作基础。 从 N-gram 到 Over-Encoding,再到 Engram,优化「记忆范式」 与模型的信息骨架并行的,是关于模型如何「记忆」的探索。 DeepSeek 的 Engram 模块,正是在 Over-Encoding 等工作的基础上,将「静态记忆增强」升级为了「动态条件记忆」。 Engram 的核心观点是,大模型的工作负载可以分为两部分: 1. 组合推理:需要消耗算力,由 MoE 等「条件计算」模块负责。 2. 解耦:由于查找地址是确定性的,Engram 可以被设计为与主计算流程解耦的独立模块。
Engram 模块正是扮演了这本“超级活字典”的角色。工作原理:Engram 是一个独立于模型主干参数之外的、可检索的知识库。 当模型在推理过程中遇到需要精确事实(如历史日期、科学公式、法律条文等)的问题时,它会首先向 Engram 发起查询。 Engram 会根据查询内容,从海量的结构化或非结构化数据中检索出最相关的知识片段,并将其注入到当前的上下文中。模型再基于这个“增强”后的上下文进行最终的生成或推理。 知识更新便捷:只需更新 Engram 中的知识库,就能让模型立刻掌握最新信息,无需重新训练庞大的主干模型。2. MoE + MHC:打造稳定高效的“专家团队”如果说 Engram 解决了“记忆”问题,那么 MoE(混合专家)架构则解决了“计算”问题。
真正值得深挖的是它在底层架构上动了三处手术:流形约束超连接(mHC)、Engram印迹条件记忆、DualPath推理加速。 三、Engram印迹条件记忆:让模型学会"翻字典"3.1长上下文处理的真实困境100万token的上下文窗口,这个数字听起来很震撼。 3.2Engram的设计哲学DeepSeek的Engram架构灵感来自神经科学中的"印迹"(Engram)概念——人脑并不是把所有记忆都平等存储的,而是根据信息的关联性建立条件性的检索路径。 ,但Engram的创新在于检索机制——它不是机械地按照距离(距离当前位置多远)来决定需要加载哪些历史信息,而是根据内容相关性来动态选择需要召回的上下文片段。 3.3打破了什么限制Engram的实际效果是:DeepSeekV4能够在100万token的上下文窗口中实现高效的长距离信息检索,同时GPU显存占用控制在合理范围内。
Engram模块的设计灵感来源于人类大脑——我们拥有一个专门用于快速检索长期记忆的海马体。Engram正是大模型的“海马体”。 2.1.2技术实现:O(1)级哈希查找根据DeepSeek与北京大学的合作论文,Engram模块的核心是一个可扩展的哈希查找表。 2.1.3核心优势根治幻觉:对于事实性问题,模型可以直接引用Engram提供的准确信息,而非依赖内部权重的模糊模拟。 推理加速:结合MoE和Engram,V4的端到端推理速度相比同级别稠密模型提升了2.3倍以上。 缓存机制:对于重复或相似的查询,Engram和KVCache可以被高效复用,实现“缓存命中”,从而将成本降至最低点0.2元。