这篇文章会带你从V3的技术遗产出发,逐层拆解V4的三张核心技术底牌——mHC流形约束超连接、Engram条件记忆架构、以及新一代MoE稀疏计算,看看DeepSeek凭什么用更少的芯片做到了更猛的性能。 再加上FP8混合精度训练和无辅助损失负载均衡策略,V3在工程层面做到了"斤斤计较"的极致。FP8精度量化让整个模型的参数在保存时占用更少的存储空间,训练过程中的显存和计算资源消耗也大幅降低。 :#c8e6c9styleJfill:#c8e6c9styleKfill:#c8e6c9三、Engram:给大模型装一个"外挂记忆体"如果说mHC解决的是"怎么训得稳"的问题,那Engram解决的就是" 它的灵感来自认知科学中的"印迹记忆"(Engram)概念——人类大脑中存储特定记忆痕迹的神经元集群。 如果你有自己的垂直领域模型,Engram的"外挂记忆"思路可以用来注入领域知识——不需要重新训练整个模型,只需要在记忆表中写入专业知识对应的嵌入向量。
而 DeepSeek 这次 Engram 的“条件记忆”技术将模型的"记忆"与"计算"能力解耦,实现了"查算分离"的全新架构范式。 实验数据证明了这种策略的有效性:在 NVIDIA H800 GPU 上,给 4B 和 8B 参数的基础模型附加 100B 参数的 Engram 嵌入表(完全存放在主机内存),吞吐量惩罚分别只有 1.9% 结合 DeepSeek 年初发布的 mHC(流形约束超连接)框架,下一代模型的架构轮廓已呼之欲出了:融合 mHC 优化专家间通信效率,引入 Engram 作为独立记忆模块,形成“动态计算+静态检索”的协同模式 八、结语:条件记忆将是下一代大模型的核心构件 Engram 架构的出现,本质上是对大模型“任务分工”的重新定义,通过条件记忆与条件计算的互补,让模型的不同部分各司其职,实现了“性能、效率和可扩展性”的三重突破 系统突破:确定性寻址实现计算与内存解耦,突破 GPU 内存墙,让万亿级参数的记忆表可低成本部署。 Engram 技术标志着大模型架构设计进入了一个新的里程碑。
一边,是面向开发者的开源图记忆库 Engram Memory SDK;一边,是 Claude Code 对长期任务记忆架构的极简重构;另一边,则是 OpenBMB 在 EdgeClaw 2.0 中把多级记忆能力正式产品化 先说结论:记忆系统开始从功能点走向架构层 过去很多 Agent 的“记忆”,本质上还是向量库加检索片段。 Claude Code:长期记忆不是堆更多内容,而是减少熵增 Claude Code 这次提出的记忆系统架构,最值得关注的地方,不是“记得更多”,而是“如何防止越记越乱”。 官方描述中,EdgeClaw 2.0 构建的是一套 四级记忆架构,覆盖从原始对话记录的细粒度溯源,到全局档案层面的个性化偏好管理。 记忆系统正在从“外挂检索”走向“原生架构” 过去的做法,常常是先有 Agent,再额外挂一个 RAG 或向量库。 现在的变化是:记忆已经不再是附加模块,而是开始进入系统设计的一开始。
DeepSeek在其成立一周年之际,曝光了一款名为MODEL1的全新架构模型。 (V32)作为不同的模型架构出现 关键技术突破 统一回归512标准维度:优化了模型的核心参数配置 首创"值向量位置感知":在注意力机制上的重要创新 引入Engram机制:条件记忆通过可扩展查找实现,解决 Transformer缺乏原生查表记忆的缺陷 DSA(DeepSeek Sparse Attention)机制:实现显存效率与推理精度的双重跨越 内存优化技术 代码差异主要体现在: KV缓存布局优化 稀疏性处理改进 FP8解码优化 技术架构对比 特性 MODEL1 V3.2 架构类型 全新架构 现有架构 硬件支持 SM90 + SM100 主要SM90 核心创新 值向量位置感知 + Engram 传统MLA 内存优化 FP8 + 稀疏处理 标准优化 性能优势 MODEL1通过引入Engram机制,实现了: O(1)查表取向量:让模型直接获取知识而非逐层计算 条件记忆机制:将20-25%参数用于记忆存储,效果最佳
窗口只是表象,真正藏在更新里的,是mHC流形约束与Engram条件记忆两项底层架构落地。” 业内猜测,这次模型的更新,应该把之前论文提到的两项核心底层技术:mHC(流形约束超连接)与 Engram (条件记忆模块)也应用在新模型上了,只是没有公布出来。 2、工程友好性: mHC 兼容 FP8 算子和国产芯片,降低了显存成本,极大降低了大模型训练的门槛。 03 — 条件记忆模块(Engram) 核心定义: Engram 是 DeepSeek 提出的“条件记忆”技术,核心目标是为大模型植入类似人类的“深层速记能力”。 Engram 关注的是“如何让模型想得更省力”,通过记忆检索解决算力浪费和显存限制。
对于传统的transformers架构来说,模型看到这句话时,其实要经历一串“隐式重建”的过程:逐字读入「美国、总统、现在、是谁」在多层网络里慢慢组合出:这是一个国家相关实体、这是一个职位;然后把“美国总统 整体的框架流程论文中已经画出来了~如果用一句话概括:MoE解决的是“算得更聪明”(条件计算),Engram解决的是“记得更便宜”(条件记忆)。两者是互补结构。 关键发现:SparsityAllocation出现“U型规律”,MoE和Memory要配比论文中提出一个很有意思的实验设问:在固定总参数预算下,MoE专家参数与Engram记忆参数,怎么分配最好? Engram的“门控(gating)”确实学会了:只在“这是一个稳定、固定的局部模式”时才强力介入,而不是对所有token都乱用记忆。 目前DeepSeek在走极致化的“稀疏”路线:MoE:计算的稀疏化Engram:存储的稀疏化如果这条路跑通,未来可能出现一种很有代表性的架构形态:小而精的推理核心+可扩展、可更新的超大记忆库。
」从神经网络里拆出来的架构实验。 二、Engram 在做什么?一句话:该查的,别算“Engram” 是神经科学中的术语,意为 记忆痕迹。在这篇论文里,它被实现为一个可扩展、可学习、可条件触发的记忆模块。 MoE 的稀疏性,是:条件计算只激活少量专家网络Engram 的稀疏性,是:条件查找只命中极少量记忆条目两者解决的是不同问题。 可以这样理解:模块在干什么Engram快速回忆“我以前见过什么”MoE / Transformer认真思考“现在该怎么推理”在架构上,Engram 被放在较早的层级,用于模式重构与事实补全; 而深层网络 但 DeepSeek 做的,是把它们重新放回现代 LLM 架构的正确位置。五、V4 会用吗?没人官宣,但信号已经很明显DeepSeek 并没有说 Engram 会直接进入 V4。
其核心创新在于一套名为“双轴稀疏架构”的系统性设计,该架构由两大引擎驱动:“Engram条件记忆引擎”与“MoE混合专家计算引擎”。 其根源在于,传统Transformer架构将“记忆”(存储事实知识)与“计算”(进行逻辑推理)混杂在同一套权重参数中。模型被迫用昂贵的、易错的计算过程去“模拟”对静态知识的检索。 DeepSeek-V4的“双引擎”架构正是对这一生物机制的工程化复现:Engram条件记忆引擎≈海马体:高效、无损地存储和检索静态知识。MoE混合专家计算引擎≈新皮层:动态、灵活地处理复杂的推理任务。 第二章:第一引擎——Engram条件记忆:为大模型装上“海马体”2.1设计动机:为什么需要一个独立的记忆模块?在传统模型中,所有知识都内化于神经网络的权重之中。当用户询问“巴黎是哪个国家的首都?” 其“记忆+专家”双引擎架构,不仅是对现有技术瓶颈的巧妙破解,更是对未来通用人工智能(AGI)形态的一次深刻探索。
3.2Engram(条件记忆)模块:根治“幻觉魔咒”这是DeepSeek团队于2026年初提出的革命性创新,旨在解决大模型“记不住硬核知识”的根本问题。 工作流程:在推理时,模型首先通过其神经网络进行动态推理,同时并行地查询Engram记忆库。如果查询命中,就直接使用精确的事实;如果未命中,则依赖神经网络的泛化能力。 一种新的稀疏维度:Engram被视为继MoE之后,大模型稀疏化的“新轴心”,为模型轻量化和持续学习提供了新路径。Engram的技术细节与创新Engram模块的设计灵感来源于人类大脑的记忆机制。 研究发现,MoE与Engram之间存在一条“U形scalinglaw”,意味着未来需要在计算与静态记忆之间找到最优资源配比。这个思路可能成为稀疏架构的下一条主流路线。 它通过将MoE的规模、Engram的记忆、mHC的稳定、DSA的效率四者有机结合,成功构建了一个既能“装得下”海量知识,又能“跑得快”且“用得起”的新一代大模型。
在人工智能领域,尤其是基于大语言模型(LLM)的智能体(Agent)系统中,记忆机制是实现持续、连贯和个性化交互的核心基石。记忆系统模拟了人类的认知结构,通常划分为短期记忆和长期记忆。 第一章:短期记忆——智能体的工作记忆与意识流1.1定义与本质短期记忆是智能体用于处理当前任务或单次会话的临时信息存储区。 注意力机制:短期记忆的有效性依赖于Transformer架构的核心——注意力机制。 检索长期记忆:系统将当前查询与短期记忆的上下文结合,作为“检索键”,在长期记忆库中进行向量相似性搜索,找出相关记忆。 结论与展望短期记忆和长期记忆是构成智能体认知架构的两大支柱。
论文提出了一个叫 Engram 的条件记忆模块:把经典 N-gram 做成现代化的 O(1) 查表记忆外挂,用确定性哈希在巨大表里秒级定位向量,再通过门控把“记忆向量”注入 Transformer 主干 1)把 N-gram 从垃圾堆里捡回来,做成“可扩展的条件记忆” Engram 的思想很“复古”:N-gram。 3)存储稀疏:比 MoE 更彻底的“只读我需要的记忆” MoE 是“只算部分专家”,仍然需要路由与激活管理。 Engram 是“只读少量记忆”,并且通过确定性地址减少路由负担。 结果就是: 高频、模板化、可结构化的知识:走 Engram/lookup 低频、长文本、强语义推理:继续走 RAG + 主干推理 这会让企业知识系统的架构重新洗牌:从“全靠 RAG”走向“记忆层 + 检索层 这就是 Engram 的长期主义: 它没有用更贵的算力去压缩问题,而是用更朴素的结构把问题拆开——让“计算”去做计算,让“记忆”去做记忆。
V4并非简单的参数堆砌,而是通过一场深刻的架构革命——双轴稀疏架构,从根本上重构了大模型的“记忆”与“计算”范式。 这构成了其双轴稀疏架构的核心:第一轴:MoE-条件计算:负责动态的、复杂的逻辑推理和创造性任务。第二轴:Engram-条件记忆:负责高效、精准地存储和检索静态的、确定性的事实知识。 3.1Engram条件记忆模块:打造大模型的“活字典外挂”3.1.1设计动机传统模型将所有知识都编码在神经网络的权重中。 通用推理:在MATH、GSM8K等数学推理数据集上,得益于mHC和Engram的协同,准确率有显著提升。 通过将“记忆”与“计算”分离,V4巧妙地绕开了传统架构的根本性缺陷,在降低成本的同时,反而提升了模型的准确性和可靠性,特别是有效遏制了长期困扰行业的“幻觉”问题。
V4的三大技术突破,分别针对当前大模型面临的三大核心挑战:幻觉魔咒(HallucinationCurse):事实性错误频发→Engram条件记忆。 2.2Engram的设计哲学:为大模型装上“海马体”Engram模块的设计灵感直接来源于人类大脑的海马体(Hippocampus),后者负责快速、精准地检索长期记忆中的事实性知识。 Engram旨在为大模型提供一个独立的、外部的、可即时访问的“活字典”,实现条件记忆(ConditionalMemory)。 整体架构:这三大技术共同支撑起了V4的“双轴稀疏架构”——Engram代表“记忆”轴的稀疏(只检索相关知识),MoE代表“计算”轴的稀疏(只激活相关专家),而DSA则是让这两者能在超长上下文中高效协同的 结论DeepSeek-V4的三大技术突破——Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力——共同构成了一场深刻的架构革命。
焦点二:核心技术——全新架构+记忆模块,多方拆解代码细节 ● 技术层面:的猜测最为密集,核心围绕“MODEL1”架构与Engram记忆模块两大方向,均源自开发者对开源代码和论文的拆解分析。 ● 构架层面:关于“MODEL1”架构,第一财经和环球网均提到,其与V3.2模型在关键技术上存在明显差异,具体体现在键值(KV)缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等方面。 FlashMLA作为DeepSeek独创工具,针对英伟达硬件做了深度优化,可在架构层面减少内存占用、提升计算效率。 ● 记忆模块:Engram记忆模块则因1月13日曝光的论文引发热议。 ● 成本方面:Engram模块带来的降本效果成为核心话题。 实测数据显示,该模块可让大模型部署成本暴降90%,原本需8张A100显卡的千亿参数模型,如今1张消费级显卡加64G内存条即可运行,硬件成本从几万美金降至1200美元左右。
我们假设海马体存储记忆大脑架构为r,而这个r有可能受到自心脏频率和大脑架构的量子纠缠的作用[25]。 只有角应变 ,第2层记忆架构就是 ,因为湍流扩散第n层记忆架构 ,对数螺旋线n-1阶导数就是记忆印记形状近似,只是记忆印记的图像质量进行了压缩,取w<1就是记忆传输到上游脑区逐渐减弱,w就是突触连接和范围权重 下游第一皮层的记忆架构是 ,那上游第n皮层的记忆架构可能近似是 的n-1阶导数。 给出了记忆印记的公式并进行了n阶求导。 提取记忆印记细胞的记忆改变突触强度,使得突触强度增强或减弱[23].PNN心脑模型见图8。 研究基于湍流给出了记忆从下游脑区向上游脑区流动可能是架构变化率的传递,并且下游第一皮层的记忆架构是 ,那上游第n皮层的记忆架构可能近似是 的n-1阶导数,我们的记忆可能是二维对数螺旋线,这样 的n
GBrain 直接捅破个人 AI 天花板 "AI Agent 最大的瓶颈不是模型能力,而是记忆和持续学习的能力" "8 层结构解决 AI Agent 的记忆缺陷,使 Agent 能持续追踪用户的人际关系 GBrain 通过 8 层记忆架构,解决了一个核心问题:为什么 AI Agent 每次对话都像「失忆」?为什么个人 AI 始终无法突破「天花板」? ) ├── 增强(Augment) └── 生成(Generate) = 单次问答优化 GBrain: ├── 8 层记忆架构 ├── 终身学习 └── 自我进化 = 持续演化的知识系统 2.2 架构预览 三、8 层记忆架构深度解析 3.1 前 4 层:基础检索层(传统 RAG 升级) 层级 名称 功能 说明 L1 上下文窗口 Session Memory 当前会话的即时记忆 L2 向量检索 Semantic 说明 8 层架构 完整记忆系统,不是简单 RAG 终身记忆 跨会话、跨时间、跨事件 人际关系 理解用户的社会网络 自我进化 Agent 能够「成长」而非每次从零开始 开源免费 Y Combinator
[19]; 7.负性记忆能够增加大脑塑性的活性[20]; 8.星形胶质细胞吞噬突触会使得大脑局部突触不会过于积聚和兴奋[21]; 9.皮层厚度、大脑个体多样性和人类智商的关系[22]; 10.提取记忆印记细胞的记忆改变突触强度 The negative memory will increase activity of brain plasticity [20]; 8. PNN对深度学习和进化计算的创新: 1.PNN把RNN架构改造有点类似CNN,而算法有些类似ResNet,池化过程或层数计算有些类似突触有效范围的更新,PNN也有共享连接权重;前向计算和反向计算除了考虑共享连接权重 Engram cells retain memory under retrograde amnesia. Sci Adv. 2022 Dec 2;8(48):eabq3211. doi: 10.1126/sciadv.abq3211. Epub 2022 Dec 2.
我们假设海马体存储记忆大脑架构为r,而这个r有可能受到自心脏频率和大脑架构的量子纠缠的作用[25]。 只有角应变 ,第2层记忆架构就是 ,因为湍流扩散第n层记忆架构 ,对数螺旋线n-1阶导数就是记忆印记形状近似,只是记忆印记的图像质量进行了压缩,取b<1就是记忆传输到上游脑区逐渐减弱, b和突触连接和有效范围权重有关 下游第一皮层的记忆架构是 ,那上游第n皮层的记忆架构可能近似是 的n-1阶导数。 给出了记忆印记的公式并进行了n阶求导。 提取记忆印记细胞的记忆改变突触强度,使得突触强度增强或减弱[23].PNN心脑模型见图8。 研究基于湍流给出了记忆从下游脑区向上游脑区流动可能是架构变化率的传递,并且下游第一皮层的记忆架构是 ,那上游第n皮层的记忆架构可能近似是 的n-1阶导数,我们的记忆可能是二维对数螺旋线,这样 的n
真正值得深挖的是它在底层架构上动了三处手术:流形约束超连接(mHC)、Engram印迹条件记忆、DualPath推理加速。 技术创新解决的核心问题作用阶段mHC流形约束超连接MoE超深网络训练不稳定训练阶段Engram印迹条件记忆长上下文中信息检索效率低架构层面DualPath推理框架KV-CacheIO瓶颈,推理成本高推理阶段下面我逐一展开 三、Engram印迹条件记忆:让模型学会"翻字典"3.1长上下文处理的真实困境100万token的上下文窗口,这个数字听起来很震撼。 3.2Engram的设计哲学DeepSeek的Engram架构灵感来自神经科学中的"印迹"(Engram)概念——人脑并不是把所有记忆都平等存储的,而是根据信息的关联性建立条件性的检索路径。 这不是简单的"把数字改大"——背后是Engram架构在支撑。没有条件记忆机制,100万token的KV-Cache在当前硬件条件下根本跑不起来。第三,原生多模态的加入。
记忆架构的结合,构建高效的多模态记忆系统。 核心技术架构 4.1 系统架构 4.2 核心组件 5. 部署方案 7.1 技术栈选择 7.2 部署架构 7.3 部署步骤 8. 实战案例 8.1 案例一:智能客服系统 8.2 案例二:医疗辅助系统 8.3 案例三:教育辅助系统 9. 核心技术架构 4.1 系统架构 4.2 核心组件 组件 功能 作用 数据预处理 处理多模态输入数据 标准化和特征提取 短期记忆 存储近期和临时信息 快速访问和处理 长期记忆 存储长期和重要信息 持久化存储和检索 增强推理能力:基于记忆结构支持复杂推理 高效更新机制:支持记忆的动态更新和维护 多模态融合:实现不同模态信息的有效融合 12.2 建议 技术选型:根据应用场景选择合适的记忆组件和工具 架构设计:根据业务需求设计合理的记忆架构