首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏ceshiren0001

    DeepSeek 深夜发布 Engram:比 MoE 更节能的突破,V4 架构初露端倪

    没有发布会,没有营销话术,只有一篇论文和一个新模块的源码——Engram。更耐人寻味的是,这篇论文的作者列表中,再次出现了 梁文锋 的名字。 于是 Engram 出现了。二、Engram 在做什么?一句话:该查的,别算“Engram” 是神经科学中的术语,意为 记忆痕迹。在这篇论文里,它被实现为一个可扩展、可学习、可条件触发的记忆模块。 MoE 的稀疏性,是:条件计算只激活少量专家网络Engram 的稀疏性,是:条件查找只命中极少量记忆条目两者解决的是不同问题。 可以这样理解:模块在干什么Engram快速回忆“我以前见过什么”MoE / Transformer认真思考“现在该怎么推理”在架构上,Engram 被放在较早的层级,用于模式重构与事实补全; 而深层网络 没人官宣,但信号已经很明显DeepSeek 并没有说 Engram 会直接进入 V4。

    33810编辑于 2026-01-15
  • 来自专栏亨利笔记

    迈向V4R2之路:揭秘DeepSeek Engram如何解放大模型算力,激发高级智能

    Engram 的融合阶段,就是做精准筛选的工作。 五、Engram本质是“增加模型有效深度” 为什么 Engram 能带来这么显著的性能提升? CKA分析:通过比较 Engram 模型和 MoE 模型的层间表征相似性,发现Engram 的浅层表征与 MoE 的深层表征高度相似。 比如 Engram-27B 的第5层表征,和 MoE 基线的第12层最为接近,相当于 Engram 用更少的物理层数,实现了更深的语义理解。 Engram与RAG的区别 Engram 与目前非常流行的 RAG(检索增强生成)技术虽然都在解决模型存储与调取海量知识的效率问题,但其技术路径存在本质区别。

    1.4K21编辑于 2026-01-19
  • 来自专栏算法一只狗

    给大模型配一本“速查手册”:DeepSeek 的 Engram 到底解决了什么问题?

    而这一次,DeepSeek有一次提出了新的技术,被称为Engram。 那么如果是有了Engram这个技术,会发生什么样的情况呢? 为了评估Engram真是在承载世界知识,论文中做了一个实验图对严重依赖外部世界知识的任务(比如TriviaQA),之前去掉Engram,整体效果只有baseline的29%对“知识已经在文章里、只需要阅读理解推理 ”的任务,去掉Engram的效果影响不大这种消融现象基本就能说明:至少一部分世界知识确实被“搬”进了Engram,而不是仍然全部压在Transformer参数里。 这进一步证明了:Engram只在“局部token组合形成一个稳定模式”的位置才强烈介入写在最后当前仍有几个现实问题:Engram是静态查表:为什么能对推理帮助这么大?

    50340编辑于 2026-01-16
  • 来自专栏凯哥讲故事系列

    凯哥 丨 AI 进入存算解耦的新纪元

    于是 Engram 这条路出现:不再把所有知识都塞进“会算的脑子”,而是把“会记的仓库”外挂出来。 技术线:Engram 到底干了什么? 2)关键不是“记得更多”,而是“让前几层不再做无聊体力活” Engram 最惊艳的地方,在于它对性能提升的解释: 很多模型的早期层在干“静态模式重建”(背诵型工作),Engram 把这些模式交给查表,等于释放了有效深度 Engram 类模块:把高频局部静态模式“内嵌式注入”,把推理从“读文档”中解放出来。 预测 3:MoE 的下一站是“混合稀疏”:算得少 + 记得快 MoE 解决计算稀疏,Engram 解决存储稀疏。二者组合会成为新的工程默认项: MoE 管会想,Engram 管会背。 关键出处 arXiv 摘要页与论文 PDF:Conditional Memory via Scalable Lookup (Engram) DeepSeek 官方开源仓库:deepseek-ai/Engram

    19310编辑于 2026-01-22
  • 来自专栏技术人生黄勇

    春节前这波“偷袭”!DeepSeek 没官宣,但偷偷点了什么技能?

    窗口只是表象,真正藏在更新里的,是mHC流形约束与Engram条件记忆两项底层架构落地。” 03 — 条件记忆模块(Engram) 核心定义: Engram 是 DeepSeek 提出的“条件记忆”技术,核心目标是为大模型植入类似人类的“深层速记能力”。 实际效果与意义: 1、大幅降低算力浪费: 通过 Engram,模型在推理阶段的算力浪费可降低高达 90%,显著减少 GPU 显存需求。 3、硬件解耦: Engram 通过“空间折叠”技术,将数百亿参数存入主机内存(CPU RAM),缓解了对高带宽内存(HBM)的依赖。 Engram 关注的是‍“如何让模型想得更省力”‍,通过记忆检索解决算力浪费和显存限制。

    5210编辑于 2026-03-11
  • 来自专栏新智元

    【Science】MIT研究长期记忆神经回路,海马体和新皮层记忆同时产生

    然而,在2012年,Tonegawa 的实验室研发了一种标记 engram (记忆痕迹)细胞的方法,这种细胞包含记忆的痕迹。这种方法使研究人员得以追踪记忆存储和找回过程中的神经回路。 研究人员在恐惧反应实验发生后一天,发现事件的记忆被存储在海马体和前额叶皮层的 engram 细胞中。 在这一时期结束时,海马体的 engram 细胞变得沉默,在自然回忆中不再需要。然而,记忆的痕迹仍然存在:用光还原这些细胞仍然会促使动物保持不动。 在基底外侧杏仁核中,一旦形成记忆,engram 细胞会在整个实验过程中保持不变。这些细胞,是唤起与特定记忆相关的情绪所必需的,它们会与海马体和前额叶皮层中的 engram 细胞进行通信。 现在,研究人员只能监测大约两周的 engram 细胞,但是他们正在努力使这一时间变得更长。 Kitamura 说他认为一些记忆痕迹可能会无限期地停留在海马体中,存储一些仅偶尔会被检索到的细节。

    1.8K40发布于 2018-03-27
  • 来自专栏CreateAMind

    Memory Generation-Consolidation-Loss and Alzheimer's

    At last, long-term stimulus information stored in memory engram cells of different cortexes. And the memory of memory engram cells ensembles by a retrograde mechanism, the formula is derived [16 The memory retrieval process by memory engram cells that strengthened synaptic strength, increase or At last, long-term stimulus information stored in memory engram cells of different cortexes. Engram cells retain memory under retrograde amnesia.

    29240编辑于 2023-09-01
  • 来自专栏AgenticAI

    DeepSeek新模型MODEL1曝光!

    MODEL1 与现有的DeepSeek-V3.2(V32)作为不同的模型架构出现 关键技术突破 统一回归512标准维度:优化了模型的核心参数配置 首创"值向量位置感知":在注意力机制上的重要创新 引入Engram 缓存布局优化 稀疏性处理改进 FP8解码优化 技术架构对比 特性 MODEL1 V3.2 架构类型 全新架构 现有架构 硬件支持 SM90 + SM100 主要SM90 核心创新 值向量位置感知 + Engram 传统MLA 内存优化 FP8 + 稀疏处理 标准优化 性能优势 MODEL1通过引入Engram机制,实现了: O(1)查表取向量:让模型直接获取知识而非逐层计算 条件记忆机制:将20-25%参数用于记忆存储

    39910编辑于 2026-01-22
  • DeepSeek-V4 发布在即:万亿参数与架构级创新重塑大模型景观

    核心技术突破:从计算密集转向“记忆”优化DeepSeek-V4 的核心创新在于其革命性的 Engram(条件存储)架构。该技术将大模型的“静态知识记忆”与“动态逻辑计算”进行了有效分离。 Engram 架构允许模型将庞大的知识索引表存储在成本更低的 CPU 系统内存(DRAM) 甚至 NVMe SSD 中,仅在需要时进行高效检索。 实验表明,Engram 能精准识别如“亚历山大大帝”或“四大发明”等固化语言模式,减轻 Transformer 主干的负担,为万亿级参数规模的平价扩展铺平了道路。

    3.2K280编辑于 2026-03-03
  • 来自专栏大数据文摘

    涨知识!你的大脑只用了5% ?Oh,NO!

    在这样的大背景下,Karl Lashley提出了一个假想概念叫“Engram”,用以指代脑中负责存储记忆的单元(可惜这个假想概念现在看来全站不住脚,我甚至找不出它的标准中文译名。) 换言之,如果某次实验,恰好切掉了小鼠的Engram,那么小鼠就会在迷宫里迷路了。 于是Karl Lashley切啊切……他渐渐发现了一个脑区,对小鼠走迷宫的效率影响最大。 Karl Lashley 根据这些实验,Karl Lashley下结论:Engram就在这个区域里。而且,就算切掉一半,小鼠依然能正常活着,这说明小鼠对于脑区的利用率非常低。

    60030发布于 2018-05-23
  • 来自专栏CreateAMind

    脑记忆产生和巩固建模研究总结(3假设3发现3创新符合13篇脑科学实验和假设)

    At last, long-term stimulus information stored in memory engram cells of different cortexes. And the memory of memory engram cells ensembles by a retrograde mechanism, the formula is derived[16] The memory retrieval process by memory engram cells that strengthened synaptic strength, increase or At last, long-term stimulus information stored in memory engram cells of different cortexes. Engram cells retain memory under retrograde amnesia.

    30620编辑于 2023-09-01
  • 来自专栏CreateAMind

    为什么脑纵剖面几何形状像螺旋波-可能至少需要一个等角螺旋运动信息才能发生湍流传递

    The critical angle and loss along the way of the memory engram for turbulent movement. The formula for memory engram is given and the n-1th derivative of . of the derivation of memory engram. 2. Situation 1: Memory engram does not lose image quality, and it will be better to obtain memory engram Engram cells retain memory under retrograde amnesia.

    44330编辑于 2023-10-10
  • DeepSeek V4全网猜测汇总:四大焦点浮出水面

    焦点二:核心技术——全新架构+记忆模块,多方拆解代码细节 ● 技术层面:的猜测最为密集,核心围绕“MODEL1”架构与Engram记忆模块两大方向,均源自开发者对开源代码和论文的拆解分析。 ● 记忆模块:Engram记忆模块则因1月13日曝光的论文引发热议。该论文由DeepSeek核心研发梁文锋署名,提出“查算分离”架构,让CPU负责静态知识存储,GPU专注核心推理。 ● 成本方面:Engram模块带来的降本效果成为核心话题。

    1.1K20编辑于 2026-01-30
  • 来自专栏CreateAMind

    记忆是什么?记忆印记进行湍流运动的临界值和沿途损失、为什么脑纵剖面几何形状像螺旋波?解释AD的15个现象

    The formula for memory engram is given and the n-1th derivative of . of the derivation of memory engram. 2. gradually increases, and the memory engram image quality will not be compressed. 3. Situation 1: Memory engram does not lose image quality, and it will be better to obtain memory engram Engram cells retain memory under retrograde amnesia.

    39450编辑于 2023-09-29
  • 来自专栏CreateAMind

    记忆产生、巩固和丧失(阿尔兹海默症的可能机理)并通过突触强度再平衡改变大脑架构(4假设4发现3创新并符合14篇脑科学实验和假设)

    At last, long-term stimulus information stored in memory engram cells of different cortexes. And the memory of memory engram cells ensembles by a retrograde mechanism, the formula is derived [16 The memory retrieval process by memory engram cells that strengthened synaptic strength, increase or At last, long-term stimulus information stored in memory engram cells of different cortexes. Engram cells retain memory under retrograde amnesia.

    28140编辑于 2023-09-01
  • 来自专栏CreateAMind

    多皮层心脑建模-记忆产生、巩固和丧失(认知障碍和阿尔兹海默症的可能机理)并通过突触强度再平衡改变大脑架构

    At last, long-term stimulus information stored in memory engram cells of different cortexes. And the memory of memory engram cells ensembles by a retrograde mechanism, the formula is derived [16 The memory retrieval process by memory engram cells that strengthened synaptic strength, increase or At last, long-term stimulus information stored in memory engram cells of different cortexes. Engram cells retain memory under retrograde amnesia.

    39840编辑于 2023-09-01
  • 来自专栏CreateAMind

    阿尔兹海默症可能的机理

    must be met before turbulent information transmission can occur, as shown in Fig. 2, forming a memory engram smaller, and the energy loss along the way is increased, which may not be able to strengthen the memory engram When too much energy is lost in the downstream brain regions, the memory engram in the upstream brain However, the memory engram processed in the downstream brain regions is more likely to be lost by the

    36310编辑于 2023-12-14
  • 来自专栏深度学习与python

    架构彻底重构!DeepSeek新模型代码曝光,要来的V4让国内外都坐不住了?

    代码注释中还提到了一种名为 “记忆印记(Engram)机制” 的技术,但在已公开的代码提交记录中,相关实现细节尚不完整。 前不久,DeepSeek 研究团队刚发布了 Engram 的技术论文。 当时,就有业内观察者认为,Engram 模块可能会成为 DeepSeek V4 的重要组成部分,并预示 DeepSeek 下一代模型会在记忆和推理协同上实现架构级提升。

    56510编辑于 2026-01-22
  • 来自专栏百科知识

    DeepSeek V4发布,改写全球AI规则,产业链全线爆发

    DeepSeekV4发布,改写全球AI规则,产业链全线爆发摘要DeepSeekV4正式发布,携mHC架构与Engram条件记忆两大底层创新,实现百万Token上下文、算力利用率85%、推理成本降90%的核心突破 2.Engram条件记忆:让AI“记得多、算得快、花得少”Engram条件记忆技术的核心创新,是将大模型的“记忆功能”与“计算功能”彻底解耦,打破了传统大模型“记忆与计算绑定”的局限,实现“按需分配资源

    4.5K50编辑于 2026-02-12
  • 来自专栏CreateAMind

    阿尔兹海默症的幻觉猜想及架构变化率在皮层的传递和存储

    Directional derivative of working memory will flow to the different cortices and stored in memory engram At last, long-term stimulus information stored in memory engram cells of different cortexes. The memory retrieval process by memory engram cells that strengthened synaptic strength, increase or At last, long-term stimulus information stored in memory engram cells of different cortexes. Engram cells retain memory under retrograde amnesia.

    29620编辑于 2023-09-01
领券