其核心创新在于一套名为“双轴稀疏架构”的系统性设计,该架构由两大引擎驱动:“Engram条件记忆引擎”与“MoE混合专家计算引擎”。 这种“记忆+专家”的双引擎模式,首次在大模型中实现了人类认知机制般的“海马体-皮层”分离,将静态知识的存储与动态逻辑的推理解耦。 DeepSeek-V4的“双引擎”架构正是对这一生物机制的工程化复现:Engram条件记忆引擎≈海马体:高效、无损地存储和检索静态知识。MoE混合专家计算引擎≈新皮层:动态、灵活地处理复杂的推理任务。 第二章:第一引擎——Engram条件记忆:为大模型装上“海马体”2.1设计动机:为什么需要一个独立的记忆模块?在传统模型中,所有知识都内化于神经网络的权重之中。当用户询问“巴黎是哪个国家的首都?” 第四章:双引擎协同——DSA稀疏注意力与1M上下文的实现拥有强大的“记忆”和“计算”引擎还不够,如何让它们在1MToken的超长上下文中高效协同工作,是另一大挑战。
今天 AI 记忆系统又进了一步:Engram、Claude Code、EdgeClaw 正在把“长期记忆”做成工程能力 最近一波关于 AI Agent 记忆系统的更新,很值得放在一起看。 一边,是面向开发者的开源图记忆库 Engram Memory SDK;一边,是 Claude Code 对长期任务记忆架构的极简重构;另一边,则是 OpenBMB 在 EdgeClaw 2.0 中把多级记忆能力正式产品化 Engram:把“摄入一次、低成本回忆很多次”做成现实 Engram Memory SDK 是一款面向智能体的开源图记忆开发库,核心思路非常直接: 在摄入阶段调用一次大模型,把实体与关系抽出来;之后回忆阶段不再依赖大模型 这个后台子代理会在不打扰主流程的情况下,自动做几件事: •合并重复信息 •解决矛盾内容 •修剪无用数据 •完成类似“睡眠巩固”的记忆整理 如果说 Engram 强调的是“低成本 recall”,那 Claude Claude Code 直接把记忆写进工作流纪律,EdgeClaw 把记忆做成多级组件,Engram 则把记忆抽象成开发基础设施。 2.
上周末,DeepSeek 团队联合北京大学在 GitHub 平台发布了名为《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》的最新论文,首次提出名为 Engram 的“条件记忆”技术,为解决上述问题提供了革命性思路 而 DeepSeek 这次 Engram 的“条件记忆”技术将模型的"记忆"与"计算"能力解耦,实现了"查算分离"的全新架构范式。 而 Engram 模块,就是“条件记忆”思路的落地实现——高效、可扩展的“AI专属档案库”。 四、MoE与Engram的最优配比 在稀疏大模型设计中,有一个核心问题:固定总参数量和计算预算时,该如何分配条件计算(MoE)和条件记忆(Engram)的稀疏容量? 八、结语:条件记忆将是下一代大模型的核心构件 Engram 架构的出现,本质上是对大模型“任务分工”的重新定义,通过条件记忆与条件计算的互补,让模型的不同部分各司其职,实现了“性能、效率和可扩展性”的三重突破
V4的三大技术突破,分别针对当前大模型面临的三大核心挑战:幻觉魔咒(HallucinationCurse):事实性错误频发→Engram条件记忆。 第二章:第一大突破——Engram条件记忆模块:根治“幻觉”的活字典外挂2.1问题根源:为什么传统模型会“胡说八道”?传统Transformer模型将所有知识都内化于其数十亿甚至万亿的权重参数之中。 2.2Engram的设计哲学:为大模型装上“海马体”Engram模块的设计灵感直接来源于人类大脑的海马体(Hippocampus),后者负责快速、精准地检索长期记忆中的事实性知识。 Engram旨在为大模型提供一个独立的、外部的、可即时访问的“活字典”,实现条件记忆(ConditionalMemory)。 结论DeepSeek-V4的三大技术突破——Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力——共同构成了一场深刻的架构革命。
论文提出了一个叫 Engram 的条件记忆模块:把经典 N-gram 做成现代化的 O(1) 查表记忆外挂,用确定性哈希在巨大表里秒级定位向量,再通过门控把“记忆向量”注入 Transformer 主干 1)把 N-gram 从垃圾堆里捡回来,做成“可扩展的条件记忆” Engram 的思想很“复古”:N-gram。 3)存储稀疏:比 MoE 更彻底的“只读我需要的记忆” MoE 是“只算部分专家”,仍然需要路由与激活管理。 Engram 是“只读少量记忆”,并且通过确定性地址减少路由负担。 Axis):负责静态知识、局部模式与“博学”——主要由可扩展存储(RAM/NVMe/分层缓存)决定 Engram 把“条件记忆”明确为一种新的稀疏轴,与 MoE 的条件计算形成互补。 这就是 Engram 的长期主义: 它没有用更贵的算力去压缩问题,而是用更朴素的结构把问题拆开——让“计算”去做计算,让“记忆”去做记忆。
DeepSeek-V4的革命性在于,它提出了第二条独立的稀疏化轴——条件记忆(ConditionalMemory)。 这构成了其双轴稀疏架构的核心:第一轴:MoE-条件计算:负责动态的、复杂的逻辑推理和创造性任务。第二轴:Engram-条件记忆:负责高效、精准地存储和检索静态的、确定性的事实知识。 3.1Engram条件记忆模块:打造大模型的“活字典外挂”3.1.1设计动机传统模型将所有知识都编码在神经网络的权重中。 3.1.2技术原理根据DeepSeek与北京大学联合发表的论文《通过可扩展查找实现的条件记忆:大型语言模型稀疏性的新维度》(ConditionalMemoryviaScalableLookup:ANewAxisofSparsityforLargeLanguageModels 3.3DSA稀疏注意力与LightningIndexer:百万上下文的“智能压缩引擎”3.3.1设计动机标准的自注意力机制计算复杂度为O(L²),其中L是序列长度。
在输入句子之后,模型一边正常算,一边做了一件“偷偷的事”:局部片段触发记忆:当模型读到输入句子的时候,它把这几个词的组合,当作一个“查询键”,去记忆库进行查询。 整体的框架流程论文中已经画出来了~如果用一句话概括:MoE解决的是“算得更聪明”(条件计算),Engram解决的是“记得更便宜”(条件记忆)。两者是互补结构。 关键发现:SparsityAllocation出现“U型规律”,MoE和Memory要配比论文中提出一个很有意思的实验设问:在固定总参数预算下,MoE专家参数与Engram记忆参数,怎么分配最好? Engram的“门控(gating)”确实学会了:只在“这是一个稳定、固定的局部模式”时才强力介入,而不是对所有token都乱用记忆。 目前DeepSeek在走极致化的“稀疏”路线:MoE:计算的稀疏化Engram:存储的稀疏化如果这条路跑通,未来可能出现一种很有代表性的架构形态:小而精的推理核心+可扩展、可更新的超大记忆库。
它解决的是:参数规模 ≠ 计算量必须线性增长但 DeepSeek 的观察更进一步:即便在 MoE 中,用“专家网络”去记忆固定模式,仍然是一种浪费。于是 Engram 出现了。 二、Engram 在做什么?一句话:该查的,别算“Engram” 是神经科学中的术语,意为 记忆痕迹。在这篇论文里,它被实现为一个可扩展、可学习、可条件触发的记忆模块。 不管这个表里存了多少“记忆”,一次检索的成本几乎不变。这意味着什么?模型可以用极低的算力,调用海量“已知模式”。 MoE 的稀疏性,是:条件计算只激活少量专家网络Engram 的稀疏性,是:条件查找只命中极少量记忆条目两者解决的是不同问题。 如果说 V2 / V3 的关键词是 MoE 扩展效率, 那么 Engram 暗示的,是下一阶段的主题:记忆与推理的结构性分离。
这篇文章会带你从V3的技术遗产出发,逐层拆解V4的三张核心技术底牌——mHC流形约束超连接、Engram条件记忆架构、以及新一代MoE稀疏计算,看看DeepSeek凭什么用更少的芯片做到了更猛的性能。 Engram的全称是ConditionalMemoryviaScalableLookup(基于可扩展查找的条件记忆)。 DeepSeek把N-gram的嵌入向量(Embedding)升级为可训练的条件记忆模块,让它在保留O(1)查找效率的同时,获得了对语义信息的编码能力。 展开代码语言:PythonAI代码解释importtorchimporttorch.nnasnnclassEngramConditionalMemory(nn.Module):"""Engram条件记忆模块 ()))%num_memory_slotsdeflookup(self,input_ids):"""O(1)条件记忆查找——Engram的核心操作"""batch_size,seq_len=input_ids.shapememory_outputs
该架构包含三大核心技术支柱:Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力。它们共同作用,实现了“记忆”与“计算”的分离,从根本上解决了传统模型的效率瓶颈。 2.1Engram条件记忆:为大模型装上“活字典外挂”2.1.1设计哲学:记忆与计算分离传统Transformer模型将所有知识都编码在神经网络的权重中。 Engram模块的设计灵感来源于人类大脑——我们拥有一个专门用于快速检索长期记忆的海马体。Engram正是大模型的“海马体”。 在线条件触发:在推理时,当前上下文会生成一个查询向量。Engram模块利用这个向量,在哈希表中进行近似最近邻(ANN)搜索。 一个理想的AGI系统,应该像人类一样,拥有一个庞大、可靠的知识库(记忆),以及一个灵活、强大的推理引擎(计算)。DeepSeek-V4正是这条道路上的一次重要实践。
MODEL1 与现有的DeepSeek-V3.2(V32)作为不同的模型架构出现 关键技术突破 统一回归512标准维度:优化了模型的核心参数配置 首创"值向量位置感知":在注意力机制上的重要创新 引入Engram 机制:条件记忆通过可扩展查找实现,解决Transformer缺乏原生查表记忆的缺陷 DSA(DeepSeek Sparse Attention)机制:实现显存效率与推理精度的双重跨越 内存优化技术 代码差异主要体现在 缓存布局优化 稀疏性处理改进 FP8解码优化 技术架构对比 特性 MODEL1 V3.2 架构类型 全新架构 现有架构 硬件支持 SM90 + SM100 主要SM90 核心创新 值向量位置感知 + Engram 传统MLA 内存优化 FP8 + 稀疏处理 标准优化 性能优势 MODEL1通过引入Engram机制,实现了: O(1)查表取向量:让模型直接获取知识而非逐层计算 条件记忆机制:将20-25%参数用于记忆存储
窗口只是表象,真正藏在更新里的,是mHC流形约束与Engram条件记忆两项底层架构落地。” 业内猜测,这次模型的更新,应该把之前论文提到的两项核心底层技术:mHC(流形约束超连接)与 Engram (条件记忆模块)也应用在新模型上了,只是没有公布出来。 03 — 条件记忆模块(Engram) 核心定义: Engram 是 DeepSeek 提出的“条件记忆”技术,核心目标是为大模型植入类似人类的“深层速记能力”。 3、条件触发: 通过分析当前上下文的隐向量特征,动态决定是否激活查找结果,并将检索到的信息与主干网络进行门控融合。 Engram 关注的是“如何让模型想得更省力”,通过记忆检索解决算力浪费和显存限制。
此前大多数关于记忆的研究都是基于分析特定大脑区域的损伤是如何影响记忆的。然而,在2012年,Tonegawa 的实验室研发了一种标记 engram (记忆痕迹)细胞的方法,这种细胞包含记忆的痕迹。 研究人员还可以判定,当小鼠被放置在恐惧条件发生的小室并自然引发它们之前关于恐惧的记忆时,它们的哪些记忆细胞是活跃的。 研究人员标记了大脑三个区域的记忆细胞:海马体、前额叶皮层和存储记忆中情绪联系的基底外侧杏仁核。 研究人员在恐惧反应实验发生后一天,发现事件的记忆被存储在海马体和前额叶皮层的 engram 细胞中。 在这一时期结束时,海马体的 engram 细胞变得沉默,在自然回忆中不再需要。然而,记忆的痕迹仍然存在:用光还原这些细胞仍然会促使动物保持不动。 在基底外侧杏仁核中,一旦形成记忆,engram 细胞会在整个实验过程中保持不变。这些细胞,是唤起与特定记忆相关的情绪所必需的,它们会与海马体和前额叶皮层中的 engram 细胞进行通信。
从 N-gram 到 Over-Encoding,再到 Engram,优化「记忆范式」 与模型的信息骨架并行的,是关于模型如何「记忆」的探索。 DeepSeek 的 Engram 模块,正是在 Over-Encoding 等工作的基础上,将「静态记忆增强」升级为了「动态条件记忆」。 Engram 的核心观点是,大模型的工作负载可以分为两部分: 1. 组合推理:需要消耗算力,由 MoE 等「条件计算」模块负责。 2. 知识回忆:对静态、固定模式(如实体名、常用短语)的重构,这部分工作应该交给更高效的「条件记忆」模块。 为此,DeepSeek 设计了一套完整的系统: 1. DeepSeek 通过实验发现了「计算」与「记忆」资源分配的 U 型定律:无论是纯粹的计算(100% MoE)还是纯粹的记忆(100% Engram),都非最优解。
说到这里,很多读者会好奇的说:什么是“条件记忆”? 与Mixture of Experts(MoE)架构相结合,Engram通过条件记忆的方式,为每个模型输入提供快速的静态知识检索。 这些成绩,足以证明条件记忆在提升大语言模型推理能力方面的巨大潜力。 与传统的MoE架构相比,DeepSeek的条件记忆技术不仅突破了GPU内存瓶颈,还通过解耦计算和存储,降低了训练和推理的成本。 如果我们将目光投向未来,DeepSeek的条件记忆技术无疑将成为AI领域的新标杆。随着条件记忆模块的进一步发展,我们有理由相信,AI技术将进入一个全新的阶段。 /blob/main/Engram_paper.pdf 2、DeepSeek开源大模型记忆模块!
核心技术突破:从计算密集转向“记忆”优化DeepSeek-V4 的核心创新在于其革命性的 Engram(条件存储)架构。该技术将大模型的“静态知识记忆”与“动态逻辑计算”进行了有效分离。 Engram 架构允许模型将庞大的知识索引表存储在成本更低的 CPU 系统内存(DRAM) 甚至 NVMe SSD 中,仅在需要时进行高效检索。 实验表明,Engram 能精准识别如“亚历山大大帝”或“四大发明”等固化语言模式,减轻 Transformer 主干的负担,为万亿级参数规模的平价扩展铺平了道路。
该架构通过三大核心技术——Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力——协同工作,从根本上解决了传统模型的效率瓶颈。 2.1Engram条件记忆:为大模型装上“海马体”2.1.1设计哲学:记忆与计算分离传统Transformer模型将静态知识(如事实、数据)与动态推理逻辑混杂在同一套参数中。 Engram模块的设计灵感来源于人类大脑的海马体,旨在为大模型提供一个独立的、高效的“外部知识库”。 2.3DSA稀疏注意力与LightningIndexer:百万上下文的“智能压缩引擎”2.3.1挑战:O(n²)的诅咒标准自注意力机制的计算复杂度为O(L²),对于1MToken的上下文完全不可行。 一个理想的AGI系统,应该拥有一个庞大、可靠的知识库(记忆),以及一个灵活、强大的推理引擎(计算)。DeepSeek-V4正是这条道路上的一次重要实践。
二、核心技术解密:双轴稀疏架构的范式革命DeepSeek-V4 的强大并非凭空而来,其背后是两大开创性技术的支撑:Engram 条件记忆模块 和 MoE(Mixture of Experts)条件计算。 这两者共同构成了其“记忆-计算分离”的双轴稀疏架构,这是对传统大模型设计的一次根本性颠覆。1. Engram 条件记忆:给AI配一本“超级活字典”想象一下,让一个学生去参加一场开卷考试。 他不需要把所有知识都死记硬背在脑子里(参数),只需要在遇到确定性问题时,快速翻阅手边的参考书(外部记忆)即可。Engram 模块正是扮演了这本“超级活字典”的角色。 工作原理:Engram 是一个独立于模型主干参数之外的、可检索的知识库。当模型在推理过程中遇到需要精确事实(如历史日期、科学公式、法律条文等)的问题时,它会首先向 Engram 发起查询。 MoE + MHC:打造稳定高效的“专家团队”如果说 Engram 解决了“记忆”问题,那么 MoE(混合专家)架构则解决了“计算”问题。
真正值得深挖的是它在底层架构上动了三处手术:流形约束超连接(mHC)、Engram印迹条件记忆、DualPath推理加速。 三、Engram印迹条件记忆:让模型学会"翻字典"3.1长上下文处理的真实困境100万token的上下文窗口,这个数字听起来很震撼。 3.2Engram的设计哲学DeepSeek的Engram架构灵感来自神经科学中的"印迹"(Engram)概念——人脑并不是把所有记忆都平等存储的,而是根据信息的关联性建立条件性的检索路径。 条件记忆存储的核心逻辑。 这不是简单的"把数字改大"——背后是Engram架构在支撑。没有条件记忆机制,100万token的KV-Cache在当前硬件条件下根本跑不起来。第三,原生多模态的加入。
思路:要解决的子问题不仅仅是数量的变化,判断的条件也会变化,选择同时记住子问题和变化的条件,存下所有变化条件下子问题的最优结果,作为父问题的解答 背包问题 image.png 选择的方案总共有两种, A B C 横轴表示背包能装的重量,纵轴表示物件,每个单元格表示对应重量中背包能装的最大价值 假设这个时候只有一个物件A,它的重量是4kg,根据背包能装的条件必须是背包的容量至少是 11 装C更好 0 1 2 3 4 5 0 0 0 0 0 0 0 A 0 0 0 0 10 10 B 0 0 4 4 10 10 C 0 0 4 7 10 11 由此可以得到结论,容量为5,当前条件下最优的价值是