2.2Engram的设计哲学:为大模型装上“海马体”Engram模块的设计灵感直接来源于人类大脑的海马体(Hippocampus),后者负责快速、精准地检索长期记忆中的事实性知识。 Engram旨在为大模型提供一个独立的、外部的、可即时访问的“活字典”,实现条件记忆(ConditionalMemory)。 资源消耗锐减:相比于V3.2,单Token的计算量(FLOPs)降低了3-10倍,显存占用大幅减少。推理加速:结合MoE和Engram,V4的端到端推理速度相比同级别稠密模型提升了2.3倍以上。 整体架构:这三大技术共同支撑起了V4的“双轴稀疏架构”——Engram代表“记忆”轴的稀疏(只检索相关知识),MoE代表“计算”轴的稀疏(只激活相关专家),而DSA则是让这两者能在超长上下文中高效协同的 结论DeepSeek-V4的三大技术突破——Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力——共同构成了一场深刻的架构革命。
V4并非简单的参数堆砌,而是通过一场深刻的架构革命——双轴稀疏架构,从根本上重构了大模型的“记忆”与“计算”范式。 这构成了其双轴稀疏架构的核心:第一轴:MoE-条件计算:负责动态的、复杂的逻辑推理和创造性任务。第二轴:Engram-条件记忆:负责高效、精准地存储和检索静态的、确定性的事实知识。 3.1Engram条件记忆模块:打造大模型的“活字典外挂”3.1.1设计动机传统模型将所有知识都编码在神经网络的权重中。 资源消耗锐减:相比于V3.2,单Token的计算量(FLOPs)降低了3-10倍,显存占用大幅减少。推理加速:结合MoE和Engram,V4的端到端推理速度相比同级别稠密模型提升了2.3倍以上。 通过将“记忆”与“计算”分离,V4巧妙地绕开了传统架构的根本性缺陷,在降低成本的同时,反而提升了模型的准确性和可靠性,特别是有效遏制了长期困扰行业的“幻觉”问题。
第二章:技术基石——双轴稀疏架构的深度解析DeepSeek-V4的卓越性能与低成本并非凭空而来,其背后是一套名为“双轴稀疏架构”的系统性创新。 该架构包含三大核心技术支柱:Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力。它们共同作用,实现了“记忆”与“计算”的分离,从根本上解决了传统模型的效率瓶颈。 2.1Engram条件记忆:为大模型装上“活字典外挂”2.1.1设计哲学:记忆与计算分离传统Transformer模型将所有知识都编码在神经网络的权重中。 Engram模块的设计灵感来源于人类大脑——我们拥有一个专门用于快速检索长期记忆的海马体。Engram正是大模型的“海马体”。 资源消耗锐减:相比于V3.2,单Token的计算量(FLOPs)降低了3-10倍,显存占用大幅减少。推理加速:结合MoE和Engram,V4的端到端推理速度相比同级别稠密模型提升了2.3倍以上。
一边,是面向开发者的开源图记忆库 Engram Memory SDK;一边,是 Claude Code 对长期任务记忆架构的极简重构;另一边,则是 OpenBMB 在 EdgeClaw 2.0 中把多级记忆能力正式产品化 先说结论:记忆系统开始从功能点走向架构层 过去很多 Agent 的“记忆”,本质上还是向量库加检索片段。 Claude Code:长期记忆不是堆更多内容,而是减少熵增 Claude Code 这次提出的记忆系统架构,最值得关注的地方,不是“记得更多”,而是“如何防止越记越乱”。 官方描述中,EdgeClaw 2.0 构建的是一套 四级记忆架构,覆盖从原始对话记录的细粒度溯源,到全局档案层面的个性化偏好管理。 记忆系统正在从“外挂检索”走向“原生架构” 过去的做法,常常是先有 Agent,再额外挂一个 RAG 或向量库。 现在的变化是:记忆已经不再是附加模块,而是开始进入系统设计的一开始。
第二章:架构革命——双轴稀疏架构的深度剖析DeepSeek-V4的卓越性能源于其独创的“双轴稀疏架构”。 该架构通过三大核心技术——Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力——协同工作,从根本上解决了传统模型的效率瓶颈。 2.1Engram条件记忆:为大模型装上“海马体”2.1.1设计哲学:记忆与计算分离传统Transformer模型将静态知识(如事实、数据)与动态推理逻辑混杂在同一套参数中。 Engram模块的设计灵感来源于人类大脑的海马体,旨在为大模型提供一个独立的、高效的“外部知识库”。 资源消耗锐减:单Token计算量(FLOPs)降低3-10倍。推理加速:端到端推理速度相比同级别稠密模型提升2.3倍以上。
而 DeepSeek 这次 Engram 的“条件记忆”技术将模型的"记忆"与"计算"能力解耦,实现了"查算分离"的全新架构范式。 这一思路的核心,就是给大模型做“分工”:把静态知识的存储和检索,交给专门的“记忆模块”;让核心的 Transformer 架构,专注于动态推理。 结合 DeepSeek 年初发布的 mHC(流形约束超连接)框架,下一代模型的架构轮廓已呼之欲出了:融合 mHC 优化专家间通信效率,引入 Engram 作为独立记忆模块,形成“动态计算+静态检索”的协同模式 八、结语:条件记忆将是下一代大模型的核心构件 Engram 架构的出现,本质上是对大模型“任务分工”的重新定义,通过条件记忆与条件计算的互补,让模型的不同部分各司其职,实现了“性能、效率和可扩展性”的三重突破 系统突破:确定性寻址实现计算与内存解耦,突破 GPU 内存墙,让万亿级参数的记忆表可低成本部署。 Engram 技术标志着大模型架构设计进入了一个新的里程碑。
这篇文章会带你从V3的技术遗产出发,逐层拆解V4的三张核心技术底牌——mHC流形约束超连接、Engram条件记忆架构、以及新一代MoE稀疏计算,看看DeepSeek凭什么用更少的芯片做到了更猛的性能。 它的灵感来自认知科学中的"印迹记忆"(Engram)概念——人类大脑中存储特定记忆痕迹的神经元集群。 Engram的思路是:在Transformer之外,给模型加一个独立的"记忆模块",通过高效的查找机制直接定位到需要的知识。Engram的底层是对经典N-gram模型的现代化改造。 记忆输出通过一个门控机制与Transformer的隐藏状态融合。门控值由模型自己学习——如果当前任务不需要外部记忆,门控值趋近于0,Engram的影响可以被自动忽略。 如果你有自己的垂直领域模型,Engram的"外挂记忆"思路可以用来注入领域知识——不需要重新训练整个模型,只需要在记忆表中写入专业知识对应的嵌入向量。
对于传统的transformers架构来说,模型看到这句话时,其实要经历一串“隐式重建”的过程:逐字读入「美国、总统、现在、是谁」在多层网络里慢慢组合出:这是一个国家相关实体、这是一个职位;然后把“美国总统 整体的框架流程论文中已经画出来了~如果用一句话概括:MoE解决的是“算得更聪明”(条件计算),Engram解决的是“记得更便宜”(条件记忆)。两者是互补结构。 关键发现:SparsityAllocation出现“U型规律”,MoE和Memory要配比论文中提出一个很有意思的实验设问:在固定总参数预算下,MoE专家参数与Engram记忆参数,怎么分配最好? Engram的“门控(gating)”确实学会了:只在“这是一个稳定、固定的局部模式”时才强力介入,而不是对所有token都乱用记忆。 目前DeepSeek在走极致化的“稀疏”路线:MoE:计算的稀疏化Engram:存储的稀疏化如果这条路跑通,未来可能出现一种很有代表性的架构形态:小而精的推理核心+可扩展、可更新的超大记忆库。
」从神经网络里拆出来的架构实验。 二、Engram 在做什么?一句话:该查的,别算“Engram” 是神经科学中的术语,意为 记忆痕迹。在这篇论文里,它被实现为一个可扩展、可学习、可条件触发的记忆模块。 MoE 的稀疏性,是:条件计算只激活少量专家网络Engram 的稀疏性,是:条件查找只命中极少量记忆条目两者解决的是不同问题。 可以这样理解:模块在干什么Engram快速回忆“我以前见过什么”MoE / Transformer认真思考“现在该怎么推理”在架构上,Engram 被放在较早的层级,用于模式重构与事实补全; 而深层网络 但 DeepSeek 做的,是把它们重新放回现代 LLM 架构的正确位置。五、V4 会用吗?没人官宣,但信号已经很明显DeepSeek 并没有说 Engram 会直接进入 V4。
其核心创新在于一套名为“双轴稀疏架构”的系统性设计,该架构由两大引擎驱动:“Engram条件记忆引擎”与“MoE混合专家计算引擎”。 其根源在于,传统Transformer架构将“记忆”(存储事实知识)与“计算”(进行逻辑推理)混杂在同一套权重参数中。模型被迫用昂贵的、易错的计算过程去“模拟”对静态知识的检索。 DeepSeek-V4的“双引擎”架构正是对这一生物机制的工程化复现:Engram条件记忆引擎≈海马体:高效、无损地存储和检索静态知识。MoE混合专家计算引擎≈新皮层:动态、灵活地处理复杂的推理任务。 第二章:第一引擎——Engram条件记忆:为大模型装上“海马体”2.1设计动机:为什么需要一个独立的记忆模块?在传统模型中,所有知识都内化于神经网络的权重之中。当用户询问“巴黎是哪个国家的首都?” 其“记忆+专家”双引擎架构,不仅是对现有技术瓶颈的巧妙破解,更是对未来通用人工智能(AGI)形态的一次深刻探索。
3.2Engram(条件记忆)模块:根治“幻觉魔咒”这是DeepSeek团队于2026年初提出的革命性创新,旨在解决大模型“记不住硬核知识”的根本问题。 工作流程:在推理时,模型首先通过其神经网络进行动态推理,同时并行地查询Engram记忆库。如果查询命中,就直接使用精确的事实;如果未命中,则依赖神经网络的泛化能力。 一种新的稀疏维度:Engram被视为继MoE之后,大模型稀疏化的“新轴心”,为模型轻量化和持续学习提供了新路径。Engram的技术细节与创新Engram模块的设计灵感来源于人类大脑的记忆机制。 研究发现,MoE与Engram之间存在一条“U形scalinglaw”,意味着未来需要在计算与静态记忆之间找到最优资源配比。这个思路可能成为稀疏架构的下一条主流路线。 它通过将MoE的规模、Engram的记忆、mHC的稳定、DSA的效率四者有机结合,成功构建了一个既能“装得下”海量知识,又能“跑得快”且“用得起”的新一代大模型。
在人工智能领域,尤其是基于大语言模型(LLM)的智能体(Agent)系统中,记忆机制是实现持续、连贯和个性化交互的核心基石。记忆系统模拟了人类的认知结构,通常划分为短期记忆和长期记忆。 第一章:短期记忆——智能体的工作记忆与意识流1.1定义与本质短期记忆是智能体用于处理当前任务或单次会话的临时信息存储区。 注意力机制:短期记忆的有效性依赖于Transformer架构的核心——注意力机制。 检索长期记忆:系统将当前查询与短期记忆的上下文结合,作为“检索键”,在长期记忆库中进行向量相似性搜索,找出相关记忆。 结论与展望短期记忆和长期记忆是构成智能体认知架构的两大支柱。
论文提出了一个叫 Engram 的条件记忆模块:把经典 N-gram 做成现代化的 O(1) 查表记忆外挂,用确定性哈希在巨大表里秒级定位向量,再通过门控把“记忆向量”注入 Transformer 主干 1)把 N-gram 从垃圾堆里捡回来,做成“可扩展的条件记忆” Engram 的思想很“复古”:N-gram。 3)存储稀疏:比 MoE 更彻底的“只读我需要的记忆” MoE 是“只算部分专家”,仍然需要路由与激活管理。 Engram 是“只读少量记忆”,并且通过确定性地址减少路由负担。 结果就是: 高频、模板化、可结构化的知识:走 Engram/lookup 低频、长文本、强语义推理:继续走 RAG + 主干推理 这会让企业知识系统的架构重新洗牌:从“全靠 RAG”走向“记忆层 + 检索层 这就是 Engram 的长期主义: 它没有用更贵的算力去压缩问题,而是用更朴素的结构把问题拆开——让“计算”去做计算,让“记忆”去做记忆。
DeepSeek在其成立一周年之际,曝光了一款名为MODEL1的全新架构模型。 (V32)作为不同的模型架构出现 关键技术突破 统一回归512标准维度:优化了模型的核心参数配置 首创"值向量位置感知":在注意力机制上的重要创新 引入Engram机制:条件记忆通过可扩展查找实现,解决 Transformer缺乏原生查表记忆的缺陷 DSA(DeepSeek Sparse Attention)机制:实现显存效率与推理精度的双重跨越 内存优化技术 代码差异主要体现在: KV缓存布局优化 稀疏性处理改进 FP8解码优化 技术架构对比 特性 MODEL1 V3.2 架构类型 全新架构 现有架构 硬件支持 SM90 + SM100 主要SM90 核心创新 值向量位置感知 + Engram 传统MLA 内存优化 FP8 + 稀疏处理 标准优化 性能优势 MODEL1通过引入Engram机制,实现了: O(1)查表取向量:让模型直接获取知识而非逐层计算 条件记忆机制:将20-25%参数用于记忆存储,效果最佳
窗口只是表象,真正藏在更新里的,是mHC流形约束与Engram条件记忆两项底层架构落地。” 业内猜测,这次模型的更新,应该把之前论文提到的两项核心底层技术:mHC(流形约束超连接)与 Engram (条件记忆模块)也应用在新模型上了,只是没有公布出来。 3、推动架构革新: 它代表了 AI 从“堆算力”向“懂数学”的转变,被视为 DeepSeek 架构升级的核心基石。 03 — 条件记忆模块(Engram) 核心定义: Engram 是 DeepSeek 提出的“条件记忆”技术,核心目标是为大模型植入类似人类的“深层速记能力”。 Engram 关注的是“如何让模型想得更省力”,通过记忆检索解决算力浪费和显存限制。
记忆架构的结合,构建高效的多模态记忆系统。 核心技术架构 4.1 系统架构 4.2 核心组件 5. 核心技术架构 4.1 系统架构 4.2 核心组件 组件 功能 作用 数据预处理 处理多模态输入数据 标准化和特征提取 短期记忆 存储近期和临时信息 快速访问和处理 长期记忆 存储长期和重要信息 持久化存储和检索 总结与建议 12.1 总结 Multimodal Memory系统通过短期记忆、长期记忆、结构化和Graph记忆架构的结合,构建了高效的多模态记忆系统。 增强推理能力:基于记忆结构支持复杂推理 高效更新机制:支持记忆的动态更新和维护 多模态融合:实现不同模态信息的有效融合 12.2 建议 技术选型:根据应用场景选择合适的记忆组件和工具 架构设计:根据业务需求设计合理的记忆架构
2.4Engram记忆架构Engram记忆架构是DeepSeekV4在长上下文处理方面的另一项重要创新。 该架构借鉴了神经科学中“记忆痕迹”(Engram)的概念,通过以下机制增强模型的记忆能力:记忆单元:在Transformer层之间插入专门的记忆单元,用于存储和检索长期依赖信息;记忆更新:采用可学习的更新规则 5.3.2智能体开发Agent框架:支持复杂的智能体开发,具备优秀的规划和执行能力;多工具集成:能够调用外部工具和API,扩展功能边界;长期记忆:通过Engram架构实现长期记忆和经验积累。 避免专家偏斜问题;更强的记忆能力:增强Engram架构,实现更长期、更可靠的记忆存储。 其创新的MoE架构、双轴稀疏设计、混合注意力机制、Engram记忆架构等技术突破,不仅解决了超大规模模型的效率问题,更在长上下文处理、推理性能、成本控制等方面实现了全面领先。
从 N-gram 到 Over-Encoding,再到 Engram,优化「记忆范式」 与模型的信息骨架并行的,是关于模型如何「记忆」的探索。 DeepSeek 的 Engram 模块,正是在 Over-Encoding 等工作的基础上,将「静态记忆增强」升级为了「动态条件记忆」。 只有与当前上下文相关的记忆才会被激活并融入到后续计算中,不相关的则被抑制。 3. 解耦:由于查找地址是确定性的,Engram 可以被设计为与主计算流程解耦的独立模块。 DeepSeek 通过实验发现了「计算」与「记忆」资源分配的 U 型定律:无论是纯粹的计算(100% MoE)还是纯粹的记忆(100% Engram),都非最优解。 将大约 20%-25% 的稀疏参数预算从计算专家再分配给记忆模块,才能达到最佳性能。 小结 总的来说,mHC 和 Engram 体现出相似的演进路线,一种相互学习、相互启发的螺旋迭代。
Agent 记忆遵循相同的逻辑。 Agent 记忆的四种类型 Agent 记忆并非单一概念,它是一个四层体系,各层服务于不同目的。 四种记忆类型映射到技术栈的不同组件上。工作记忆对应上下文窗口;情景记忆和语义记忆对应外部数据库(向量存储、关系型数据库、键值存储);程序记忆对应模型权重和系统提示词。 记忆系统需要衰减机制。旧的、低相关性的记忆应当逐渐淡出;相互矛盾的记忆(先说偏好 Python,后来又切换到 Go)需要被清理,否则知识库会随时间推移变得陈旧且自相矛盾。 Mem0 大概是目前应用最广的记忆层方案。它介于 agent 和数据库之间,自动处理写入、检索、遗忘逻辑——接入技术栈后即可管理情景记忆和语义记忆。 API 设计简洁:保存记忆、搜索记忆,剩下的交给它。
作为继 R1 推理模型之后的又一里程碑,DeepSeek-V4 通过架构级创新,试图打破算力瓶颈,在更低成本下实现性能跃迁。 核心技术突破:从计算密集转向“记忆”优化DeepSeek-V4 的核心创新在于其革命性的 Engram(条件存储)架构。该技术将大模型的“静态知识记忆”与“动态逻辑计算”进行了有效分离。 Engram 架构允许模型将庞大的知识索引表存储在成本更低的 CPU 系统内存(DRAM) 甚至 NVMe SSD 中,仅在需要时进行高效检索。 实验表明,Engram 能精准识别如“亚历山大大帝”或“四大发明”等固化语言模式,减轻 Transformer 主干的负担,为万亿级参数规模的平价扩展铺平了道路。 原生多模态:更强的空间推理与代码能力不同于以往的插件式组合,DeepSeek-V4 采用了 原生多模态融合架构,在预训练阶段即实现图像、视频和文本的深度统一。