搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏亨利笔记
迈向V4R2之路：揭秘DeepSeek Engram如何解放大模型算力，激发高级智能
Engram 的融合阶段，就是做精准筛选的工作。五、Engram本质是“增加模型有效深度” 为什么 Engram 能带来这么显著的性能提升？ CKA分析：通过比较 Engram 模型和 MoE 模型的层间表征相似性，发现Engram 的浅层表征与 MoE 的深层表征高度相似。比如 Engram-27B 的第5层表征，和 MoE 基线的第12层最为接近，相当于 Engram 用更少的物理层数，实现了更深的语义理解。 Engram与RAG的区别 Engram 与目前非常流行的 RAG（检索增强生成）技术虽然都在解决模型存储与调取海量知识的效率问题，但其技术路径存在本质区别。
2K21编辑于 2026-01-19
来自专栏算法一只狗
给大模型配一本“速查手册”：DeepSeek 的 Engram 到底解决了什么问题？
而这一次，DeepSeek有一次提出了新的技术，被称为Engram。那么如果是有了Engram这个技术，会发生什么样的情况呢？为了评估Engram真是在承载世界知识，论文中做了一个实验图对严重依赖外部世界知识的任务（比如TriviaQA），之前去掉Engram，整体效果只有baseline的29%对“知识已经在文章里、只需要阅读理解推理 ”的任务，去掉Engram的效果影响不大这种消融现象基本就能说明：至少一部分世界知识确实被“搬”进了Engram，而不是仍然全部压在Transformer参数里。这进一步证明了：Engram只在“局部token组合形成一个稳定模式”的位置才强烈介入写在最后当前仍有几个现实问题：Engram是静态查表：为什么能对推理帮助这么大？
82440编辑于 2026-01-16
来自专栏凯哥讲故事系列
凯哥丨 AI 进入存算解耦的新纪元
于是 Engram 这条路出现：不再把所有知识都塞进“会算的脑子”，而是把“会记的仓库”外挂出来。技术线：Engram 到底干了什么？ 2）关键不是“记得更多”，而是“让前几层不再做无聊体力活” Engram 最惊艳的地方，在于它对性能提升的解释：很多模型的早期层在干“静态模式重建”（背诵型工作），Engram 把这些模式交给查表，等于释放了有效深度 Engram 类模块：把高频局部静态模式“内嵌式注入”，把推理从“读文档”中解放出来。预测 3：MoE 的下一站是“混合稀疏”：算得少 + 记得快 MoE 解决计算稀疏，Engram 解决存储稀疏。二者组合会成为新的工程默认项： MoE 管会想，Engram 管会背。关键出处 arXiv 摘要页与论文 PDF：Conditional Memory via Scalable Lookup (Engram) DeepSeek 官方开源仓库：deepseek-ai/Engram
25410编辑于 2026-01-22
35倍推理加速，成本砍掉97%——DeepSeek V4要重写大模型游戏规则
Engram的思路是：在Transformer之外，给模型加一个独立的"记忆模块"，通过高效的查找机制直接定位到需要的知识。Engram的底层是对经典N-gram模型的现代化改造。门控值由模型自己学习——如果当前任务不需要外部记忆，门控值趋近于0，Engram的影响可以被自动忽略。这种设计的一个直接好处是：Engram和MoE提供了两个正交的稀疏维度。知乎上的技术分析文章把Engram称为"一条不同于MoE的大模型稀疏化路径"，这个定位非常精准。MoE解决的是"计算稀疏"问题，Engram解决的是"知识稀疏"问题。 3.研究Engram开源代码DeepSeek已经在GitHub上开源了Engram模块的代码。对于有定制化需求的开发者，可以提前研究Engram的接口设计，考虑如何把它集成到自己的模型中。展开代码语言：BashAI代码解释#克隆Engram仓库gitclonehttps://github.com/deepseek-ai/Engram.gitcdEngram#查看项目结构#预期包含：模型定义
3.4K120编辑于 2026-04-15
来自专栏ceshiren0001
DeepSeek 深夜发布 Engram：比 MoE 更节能的突破，V4 架构初露端倪
没有发布会，没有营销话术，只有一篇论文和一个新模块的源码——Engram。更耐人寻味的是，这篇论文的作者列表中，再次出现了梁文锋的名字。于是 Engram 出现了。二、Engram 在做什么？一句话：该查的，别算“Engram” 是神经科学中的术语，意为记忆痕迹。在这篇论文里，它被实现为一个可扩展、可学习、可条件触发的记忆模块。 MoE 的稀疏性，是：条件计算只激活少量专家网络Engram 的稀疏性，是：条件查找只命中极少量记忆条目两者解决的是不同问题。可以这样理解：模块在干什么Engram快速回忆“我以前见过什么”MoE / Transformer认真思考“现在该怎么推理”在架构上，Engram 被放在较早的层级，用于模式重构与事实补全；而深层网络没人官宣，但信号已经很明显DeepSeek 并没有说 Engram 会直接进入 V4。
47210编辑于 2026-01-15
来自专栏CreateAMind
Memory Generation-Consolidation-Loss and Alzheimer's
At last, long-term stimulus information stored in memory engram cells of different cortexes. And the memory of memory engram cells ensembles by a retrograde mechanism, the formula is derived [16 The memory retrieval process by memory engram cells that strengthened synaptic strength, increase or At last, long-term stimulus information stored in memory engram cells of different cortexes. Engram cells retain memory under retrograde amnesia.
31940编辑于 2023-09-01
来自专栏大模型系列
不是更大，而是更聪明：DeepSeek-V4用“记忆+专家”双引擎颠覆大模型范式—压缩稀疏注意力、DSA、Lightning Indexer
其核心创新在于一套名为“双轴稀疏架构”的系统性设计，该架构由两大引擎驱动：“Engram条件记忆引擎”与“MoE混合专家计算引擎”。 Engram模块旨在解决这些问题，为模型提供一个外部的、可即时访问的“活字典”。 2.3.3释放骨干网络潜能角色转变：引入Engram后，Transformer骨干网络的早期层不再需要承担大量的静态知识重构任务。 Engram触发：上下文中的关键实体和短语会触发Engram模块，从其外部知识库中检索相关事实，并将这些事实作为“增强上下文”注入。 DSA预处理：整个1MToken（包括原始上下文和Engram注入的内容）被DSA的压缩机制处理，生成一个精简的“超级条目”列表。
23230编辑于 2026-04-24
今天 AI 记忆系统又进了一步：Engram、Claude Code、EdgeClaw 正在把“长期记忆”做成工程能力
今天 AI 记忆系统又进了一步：Engram、Claude Code、EdgeClaw 正在把“长期记忆”做成工程能力最近一波关于 AI Agent 记忆系统的更新，很值得放在一起看。如果把 Engram、Claude Code、EdgeClaw 放在一起看，我觉得至少有三点趋势已经很明确。 1. Claude Code 直接把记忆写进工作流纪律，EdgeClaw 把记忆做成多级组件，Engram 则把记忆抽象成开发基础设施。 2. Engram 的“摄入时抽取、回忆时免 LLM”是一种回答；EdgeClaw 的成本路由与分层上下文构造也是一种回答；Claude Code 的极简索引则是在源头减少无效上下文。参考来源 •Engram Memory SDK：https://github.com/hackdavid/engram-memory[1] •EdgeClaw：https://github.com/OpenBMB
23810编辑于 2026-04-09
来自专栏大模型系列
解密DeepSeek-V4 预览版Engram 记忆模块、mHC 稳定训练与百万Token稀疏注意力的三大突破——百万Token上下文的智能压缩引擎
2.2Engram的设计哲学：为大模型装上“海马体”Engram模块的设计灵感直接来源于人类大脑的海马体（Hippocampus），后者负责快速、精准地检索长期记忆中的事实性知识。 Engram旨在为大模型提供一个独立的、外部的、可即时访问的“活字典”，实现条件记忆（ConditionalMemory）。提升长上下文稳定性：无论关键信息位于1MToken上下文的任何位置，Engram都能确保其被完整、无损地检索到。推理加速：结合MoE和Engram，V4的端到端推理速度相比同级别稠密模型提升了2.3倍以上。 Engram+DSA：Engram注入的外部知识片段也被纳入DSA的处理范围。
27620编辑于 2026-04-24
DeepSeek-V4 发布在即：万亿参数与架构级创新重塑大模型景观
核心技术突破：从计算密集转向“记忆”优化DeepSeek-V4 的核心创新在于其革命性的 Engram（条件存储）架构。该技术将大模型的“静态知识记忆”与“动态逻辑计算”进行了有效分离。 Engram 架构允许模型将庞大的知识索引表存储在成本更低的 CPU 系统内存（DRAM）甚至 NVMe SSD 中，仅在需要时进行高效检索。实验表明，Engram 能精准识别如“亚历山大大帝”或“四大发明”等固化语言模式，减轻 Transformer 主干的负担，为万亿级参数规模的平价扩展铺平了道路。
4K280编辑于 2026-03-03
来自专栏新智元
【Science】MIT研究长期记忆神经回路，海马体和新皮层记忆同时产生
然而，在2012年，Tonegawa 的实验室研发了一种标记 engram （记忆痕迹）细胞的方法，这种细胞包含记忆的痕迹。这种方法使研究人员得以追踪记忆存储和找回过程中的神经回路。研究人员在恐惧反应实验发生后一天，发现事件的记忆被存储在海马体和前额叶皮层的 engram 细胞中。在这一时期结束时，海马体的 engram 细胞变得沉默，在自然回忆中不再需要。然而，记忆的痕迹仍然存在：用光还原这些细胞仍然会促使动物保持不动。在基底外侧杏仁核中，一旦形成记忆，engram 细胞会在整个实验过程中保持不变。这些细胞，是唤起与特定记忆相关的情绪所必需的，它们会与海马体和前额叶皮层中的 engram 细胞进行通信。现在，研究人员只能监测大约两周的 engram 细胞，但是他们正在努力使这一时间变得更长。 Kitamura 说他认为一些记忆痕迹可能会无限期地停留在海马体中，存储一些仅偶尔会被检索到的细节。
1.9K40发布于 2018-03-27
来自专栏技术人生黄勇
春节前这波“偷袭”！DeepSeek 没官宣，但偷偷点了什么技能？
窗口只是表象，真正藏在更新里的，是mHC流形约束与Engram条件记忆两项底层架构落地。” 03 — 条件记忆模块（Engram）核心定义： Engram 是 DeepSeek 提出的“条件记忆”技术，核心目标是为大模型植入类似人类的“深层速记能力”。实际效果与意义： 1、大幅降低算力浪费：通过 Engram，模型在推理阶段的算力浪费可降低高达 90%，显著减少 GPU 显存需求。 3、硬件解耦： Engram 通过“空间折叠”技术，将数百亿参数存入主机内存（CPU RAM），缓解了对高带宽内存（HBM）的依赖。 Engram 关注的是‍“如何让模型想得更省力”‍，通过记忆检索解决算力浪费和显存限制。
30210编辑于 2026-03-11
来自专栏大数据文摘
涨知识！你的大脑只用了5% ？Oh，NO！
在这样的大背景下，Karl Lashley提出了一个假想概念叫“Engram”，用以指代脑中负责存储记忆的单元（可惜这个假想概念现在看来全站不住脚，我甚至找不出它的标准中文译名。）换言之，如果某次实验，恰好切掉了小鼠的Engram，那么小鼠就会在迷宫里迷路了。于是Karl Lashley切啊切……他渐渐发现了一个脑区，对小鼠走迷宫的效率影响最大。 Karl Lashley 根据这些实验，Karl Lashley下结论：Engram就在这个区域里。而且，就算切掉一半，小鼠依然能正常活着，这说明小鼠对于脑区的利用率非常低。
61330发布于 2018-05-23
来自专栏大模型系列
打破幻觉与成本魔咒：DeepSeek-V4 如何用双轴稀疏架构重塑大模型未来？
第二轴：Engram-条件记忆：负责高效、精准地存储和检索静态的、确定性的事实知识。 3.1Engram条件记忆模块：打造大模型的“活字典外挂”3.1.1设计动机传统模型将所有知识都编码在神经网络的权重中。 Engram模块旨在为模型提供一个外部的、可快速访问的“知识库”。 Engram模块会使用这个查询向量，在哈希表中进行近似最近邻（ApproximateNearestNeighbor,ANN）搜索。通用推理：在MATH、GSM8K等数学推理数据集上，得益于mHC和Engram的协同，准确率有显著提升。
22720编辑于 2026-04-24
来自专栏AgenticAI
DeepSeek新模型MODEL1曝光！
MODEL1 与现有的DeepSeek-V3.2（V32）作为不同的模型架构出现关键技术突破统一回归512标准维度：优化了模型的核心参数配置首创"值向量位置感知"：在注意力机制上的重要创新引入Engram 缓存布局优化稀疏性处理改进 FP8解码优化技术架构对比特性 MODEL1 V3.2 架构类型全新架构现有架构硬件支持 SM90 + SM100 主要SM90 核心创新值向量位置感知 + Engram 传统MLA 内存优化 FP8 + 稀疏处理标准优化性能优势 MODEL1通过引入Engram机制，实现了： O(1)查表取向量：让模型直接获取知识而非逐层计算条件记忆机制：将20-25%参数用于记忆存储
58610编辑于 2026-01-22
来自专栏CreateAMind
脑记忆产生和巩固建模研究总结（3假设3发现3创新符合13篇脑科学实验和假设）
At last, long-term stimulus information stored in memory engram cells of different cortexes. And the memory of memory engram cells ensembles by a retrograde mechanism, the formula is derived[16] The memory retrieval process by memory engram cells that strengthened synaptic strength, increase or At last, long-term stimulus information stored in memory engram cells of different cortexes. Engram cells retain memory under retrograde amnesia.
31320编辑于 2023-09-01
来自专栏不二小段
DeepSeek 最新论文成果，站在字节豆包的肩膀上
DeepSeek 最近关于 mHC 和 Engram 的两篇文章，已经有很多解读，而且大家发现，这两篇论文背后都有一些来自字节的工作基础。从 N-gram 到 Over-Encoding，再到 Engram，优化「记忆范式」与模型的信息骨架并行的，是关于模型如何「记忆」的探索。 DeepSeek 的 Engram 模块，正是在 Over-Encoding 等工作的基础上，将「静态记忆增强」升级为了「动态条件记忆」。 Engram 的核心观点是，大模型的工作负载可以分为两部分： 1. 组合推理：需要消耗算力，由 MoE 等「条件计算」模块负责。 2. 解耦：由于查找地址是确定性的，Engram 可以被设计为与主计算流程解耦的独立模块。
19410编辑于 2026-04-09
来自专栏大模型系列
万字长文解读 DeepSeek-V4：百万上下文、万亿参数、开源免费，国产大模型迎来JPEG时刻—解密 Engram 记忆模块、MHC 稳定训练与百万Token
Engram 模块正是扮演了这本“超级活字典”的角色。工作原理：Engram 是一个独立于模型主干参数之外的、可检索的知识库。当模型在推理过程中遇到需要精确事实（如历史日期、科学公式、法律条文等）的问题时，它会首先向 Engram 发起查询。 Engram 会根据查询内容，从海量的结构化或非结构化数据中检索出最相关的知识片段，并将其注入到当前的上下文中。模型再基于这个“增强”后的上下文进行最终的生成或推理。知识更新便捷：只需更新 Engram 中的知识库，就能让模型立刻掌握最新信息，无需重新训练庞大的主干模型。2. MoE + MHC：打造稳定高效的“专家团队”如果说 Engram 解决了“记忆”问题，那么 MoE（混合专家）架构则解决了“计算”问题。
1.3K100编辑于 2026-04-24
当所有人都在堆参数的时候，DeepSeek V4悄悄做了三件别人不敢做的事
真正值得深挖的是它在底层架构上动了三处手术：流形约束超连接（mHC）、Engram印迹条件记忆、DualPath推理加速。三、Engram印迹条件记忆：让模型学会"翻字典"3.1长上下文处理的真实困境100万token的上下文窗口，这个数字听起来很震撼。 3.2Engram的设计哲学DeepSeek的Engram架构灵感来自神经科学中的"印迹"（Engram）概念——人脑并不是把所有记忆都平等存储的，而是根据信息的关联性建立条件性的检索路径。，但Engram的创新在于检索机制——它不是机械地按照距离（距离当前位置多远）来决定需要加载哪些历史信息，而是根据内容相关性来动态选择需要召回的上下文片段。 3.3打破了什么限制Engram的实际效果是：DeepSeekV4能够在100万token的上下文窗口中实现高效的长距离信息检索，同时GPU显存占用控制在合理范围内。
77730编辑于 2026-04-18
来自专栏大模型系列
0.2元/百万Token 的万亿AI：DeepSeek-V4 开源，开启超长上下文普惠时代——DeepSeek-V4-Pro|DeepSeek-V4-Flash
Engram模块的设计灵感来源于人类大脑——我们拥有一个专门用于快速检索长期记忆的海马体。Engram正是大模型的“海马体”。 2.1.2技术实现：O(1)级哈希查找根据DeepSeek与北京大学的合作论文，Engram模块的核心是一个可扩展的哈希查找表。 2.1.3核心优势根治幻觉：对于事实性问题，模型可以直接引用Engram提供的准确信息，而非依赖内部权重的模糊模拟。推理加速：结合MoE和Engram，V4的端到端推理速度相比同级别稠密模型提升了2.3倍以上。缓存机制：对于重复或相似的查询，Engram和KVCache可以被高效复用，实现“缓存命中”，从而将成本降至最低点0.2元。
37540编辑于 2026-04-24

第 2 页第 3 页

点击加载更多

迈向V4R2之路：揭秘DeepSeek Engram如何解放大模型算力，激发高级智能

给大模型配一本“速查手册”：DeepSeek 的 Engram 到底解决了什么问题？

凯哥丨 AI 进入存算解耦的新纪元

35倍推理加速，成本砍掉97%——DeepSeek V4要重写大模型游戏规则

DeepSeek 深夜发布 Engram：比 MoE 更节能的突破，V4 架构初露端倪

Memory Generation-Consolidation-Loss and Alzheimer's

不是更大，而是更聪明：DeepSeek-V4用“记忆+专家”双引擎颠覆大模型范式—压缩稀疏注意力、DSA、Lightning Indexer

今天 AI 记忆系统又进了一步：Engram、Claude Code、EdgeClaw 正在把“长期记忆”做成工程能力

解密DeepSeek-V4 预览版Engram 记忆模块、mHC 稳定训练与百万Token稀疏注意力的三大突破——百万Token上下文的智能压缩引擎

DeepSeek-V4 发布在即：万亿参数与架构级创新重塑大模型景观

【Science】MIT研究长期记忆神经回路，海马体和新皮层记忆同时产生

春节前这波“偷袭”！DeepSeek 没官宣，但偷偷点了什么技能？

涨知识！你的大脑只用了5% ？Oh，NO！

打破幻觉与成本魔咒：DeepSeek-V4 如何用双轴稀疏架构重塑大模型未来？

DeepSeek新模型MODEL1曝光！

脑记忆产生和巩固建模研究总结（3假设3发现3创新符合13篇脑科学实验和假设）

DeepSeek 最新论文成果，站在字节豆包的肩膀上

万字长文解读 DeepSeek-V4：百万上下文、万亿参数、开源免费，国产大模型迎来JPEG时刻—解密 Engram 记忆模块、MHC 稳定训练与百万Token

当所有人都在堆参数的时候，DeepSeek V4悄悄做了三件别人不敢做的事

0.2元/百万Token 的万亿AI：DeepSeek-V4 开源，开启超长上下文普惠时代——DeepSeek-V4-Pro|DeepSeek-V4-Flash

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

迈向V4R2之路：揭秘DeepSeek Engram如何解放大模型算力，激发高级智能

给大模型配一本“速查手册”：DeepSeek 的 Engram 到底解决了什么问题？

凯哥 丨 AI 进入存算解耦的新纪元

35倍推理加速，成本砍掉97%——DeepSeek V4要重写大模型游戏规则

DeepSeek 深夜发布 Engram：比 MoE 更节能的突破，V4 架构初露端倪

Memory Generation-Consolidation-Loss and Alzheimer's

不是更大，而是更聪明：DeepSeek-V4用“记忆+专家”双引擎颠覆大模型范式—压缩稀疏注意力、DSA、Lightning Indexer

今天 AI 记忆系统又进了一步：Engram、Claude Code、EdgeClaw 正在把“长期记忆”做成工程能力

解密DeepSeek-V4 预览版Engram 记忆模块、mHC 稳定训练与百万Token稀疏注意力的三大突破——百万Token上下文的智能压缩引擎

DeepSeek-V4 发布在即：万亿参数与架构级创新重塑大模型景观

【Science】MIT研究长期记忆神经回路，海马体和新皮层记忆同时产生

春节前这波“偷袭”！DeepSeek 没官宣，但偷偷点了什么技能？

涨知识！你的大脑只用了5% ？Oh，NO！

打破幻觉与成本魔咒：DeepSeek-V4 如何用双轴稀疏架构重塑大模型未来？

DeepSeek新模型MODEL1曝光！

脑记忆产生和巩固建模研究总结（3假设3发现3创新符合13篇脑科学实验和假设）

DeepSeek 最新论文成果，站在字节豆包的肩膀上

万字长文解读 DeepSeek-V4：百万上下文、万亿参数、开源免费，国产大模型迎来JPEG时刻—解密 Engram 记忆模块、MHC 稳定训练与百万Token

当所有人都在堆参数的时候，DeepSeek V4悄悄做了三件别人不敢做的事

0.2元/百万Token 的万亿AI：DeepSeek-V4 开源，开启超长上下文普惠时代——DeepSeek-V4-Pro|DeepSeek-V4-Flash

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

凯哥丨 AI 进入存算解耦的新纪元