首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 今天 AI 记忆系统又进了一步:Engram、Claude Code、EdgeClaw 正在把“长期记忆”做成工程能力

    一边,是面向开发者的开源图记忆Engram Memory SDK;一边,是 Claude Code 对长期任务记忆架构的极简重构;另一边,则是 OpenBMB 在 EdgeClaw 2.0 中把多级记忆能力正式产品化 先说结论:记忆系统开始从功能点走向架构层 过去很多 Agent 的“记忆”,本质上还是向量库加检索片段。 Claude Code:长期记忆不是堆更多内容,而是减少熵增 Claude Code 这次提出的记忆系统架构,最值得关注的地方,不是“记得更多”,而是“如何防止越记越乱”。 官方描述中,EdgeClaw 2.0 构建的是一套 四级记忆架构,覆盖从原始对话记录的细粒度溯源,到全局档案层面的个性化偏好管理。 记忆系统正在从“外挂检索”走向“原生架构” 过去的做法,常常是先有 Agent,再额外挂一个 RAG 或向量库。 现在的变化是:记忆已经不再是附加模块,而是开始进入系统设计的一开始。

    33710编辑于 2026-04-09
  • 来自专栏亨利笔记

    迈向V4R2之路:揭秘DeepSeek Engram如何解放大模型算力,激发高级智能

    而 DeepSeek 这次 Engram 的“条件记忆”技术将模型的"记忆"与"计算"能力解耦,实现了"查算分离"的全新架构范式。 这一思路的核心,就是给大模型做“分工”:把静态知识的存储和检索,交给专门的“记忆模块”;让核心的 Transformer 架构,专注于动态推理。 结合 DeepSeek 年初发布的 mHC(流形约束超连接)框架,下一代模型的架构轮廓已呼之欲出了:融合 mHC 优化专家间通信效率,引入 Engram 作为独立记忆模块,形成“动态计算+静态检索”的协同模式 八、结语:条件记忆将是下一代大模型的核心构件 Engram 架构的出现,本质上是对大模型“任务分工”的重新定义,通过条件记忆与条件计算的互补,让模型的不同部分各司其职,实现了“性能、效率和可扩展性”的三重突破 系统突破:确定性寻址实现计算与内存解耦,突破 GPU 内存墙,让万亿级参数的记忆表可低成本部署。 Engram 技术标志着大模型架构设计进入了一个新的里程碑。

    2.2K21编辑于 2026-01-19
  • 来自专栏技术人生黄勇

    春节前这波“偷袭”!DeepSeek 没官宣,但偷偷点了什么技能?

    窗口只是表象,真正藏在更新里的,是mHC流形约束与Engram条件记忆两项底层架构落地。” 01 — 2月11日,昨天,DeepSeek在网页端与App端同步推送版本更新,正式开启百万级Token上下文灰度测试,从原有128K扩展到1M。 业内猜测,这次模型的更新,应该把之前论文提到的两项核心底层技术:mHC(流形约束超连接)与 Engram (条件记忆模块)也应用在新模型上了,只是没有公布出来。 03 — 条件记忆模块(Engram) 核心定义: Engram 是 DeepSeek 提出的“条件记忆”技术,核心目标是为大模型植入类似人类的“深层速记能力”。 Engram 关注的是‍“如何让模型想得更省力”‍,通过记忆检索解决算力浪费和显存限制。

    36010编辑于 2026-03-11
  • 35倍推理加速,成本砍掉97%——DeepSeek V4要重写大模型游戏规则

    这篇文章会带你从V3的技术遗产出发,逐层拆解V4的三张核心技术底牌——mHC流形约束超连接、Engram条件记忆架构、以及新一代MoE稀疏计算,看看DeepSeek凭什么用更少的芯片做到了更猛的性能。 它的灵感来自认知科学中的"印迹记忆"(Engram)概念——人类大脑中存储特定记忆痕迹的神经元集群。 Engram的思路是:在Transformer之外,给模型加一个独立的"记忆模块",通过高效的查找机制直接定位到需要的知识。Engram的底层是对经典N-gram模型的现代化改造。 记忆输出通过一个门控机制与Transformer的隐藏状态融合。门控值由模型自己学习——如果当前任务不需要外部记忆,门控值趋近于0,Engram的影响可以被自动忽略。 如果你有自己的垂直领域模型,Engram的"外挂记忆"思路可以用来注入领域知识——不需要重新训练整个模型,只需要在记忆表中写入专业知识对应的嵌入向量。

    3.7K120编辑于 2026-04-15
  • 来自专栏算法一只狗

    给大模型配一本“速查手册”:DeepSeek 的 Engram 到底解决了什么问题?

    对于传统的transformers架构来说,模型看到这句话时,其实要经历一串“隐式重建”的过程:逐字读入「美国、总统、现在、是谁」在多层网络里慢慢组合出:这是一个国家相关实体、这是一个职位;然后把“美国总统 整体的框架流程论文中已经画出来了~如果用一句话概括:MoE解决的是“算得更聪明”(条件计算),Engram解决的是“记得更便宜”(条件记忆)。两者是互补结构。 关键发现:SparsityAllocation出现“U型规律”,MoE和Memory要配比论文中提出一个很有意思的实验设问:在固定总参数预算下,MoE专家参数与Engram记忆参数,怎么分配最好? Engram的“门控(gating)”确实学会了:只在“这是一个稳定、固定的局部模式”时才强力介入,而不是对所有token都乱用记忆。 目前DeepSeek在走极致化的“稀疏”路线:MoE:计算的稀疏化Engram:存储的稀疏化如果这条路跑通,未来可能出现一种很有代表性的架构形态:小而精的推理核心+可扩展、可更新的超大记忆库。

    1K40编辑于 2026-01-16
  • 来自专栏ceshiren0001

    DeepSeek 深夜发布 Engram:比 MoE 更节能的突破,V4 架构初露端倪

    」从神经网络里拆出来的架构实验。 二、Engram 在做什么?一句话:该查的,别算“Engram” 是神经科学中的术语,意为 记忆痕迹。在这篇论文里,它被实现为一个可扩展、可学习、可条件触发的记忆模块。 MoE 的稀疏性,是:条件计算只激活少量专家网络Engram 的稀疏性,是:条件查找只命中极少量记忆条目两者解决的是不同问题。 可以这样理解:模块在干什么Engram快速回忆“我以前见过什么”MoE / Transformer认真思考“现在该怎么推理”在架构上,Engram 被放在较早的层级,用于模式重构与事实补全; 而深层网络 但 DeepSeek 做的,是把它们重新放回现代 LLM 架构的正确位置。五、V4 会用吗?没人官宣,但信号已经很明显DeepSeek 并没有说 Engram 会直接进入 V4。

    54110编辑于 2026-01-15
  • 来自专栏大模型系列

    不是更大,而是更聪明:DeepSeek-V4用“记忆+专家”双引擎颠覆大模型范式—压缩稀疏注意力、DSA、Lightning Indexer

    其核心创新在于一套名为“双轴稀疏架构”的系统性设计,该架构由两大引擎驱动:“Engram条件记忆引擎”与“MoE混合专家计算引擎”。 其根源在于,传统Transformer架构将“记忆”(存储事实知识)与“计算”(进行逻辑推理)混杂在同一套权重参数中。模型被迫用昂贵的、易错的计算过程去“模拟”对静态知识的检索。 DeepSeek-V4的“双引擎”架构正是对这一生物机制的工程化复现:Engram条件记忆引擎≈海马体:高效、无损地存储和检索静态知识。MoE混合专家计算引擎≈新皮层:动态、灵活地处理复杂的推理任务。 第二章:第一引擎——Engram条件记忆:为大模型装上“海马体”2.1设计动机:为什么需要一个独立的记忆模块?在传统模型中,所有知识都内化于神经网络的权重之中。当用户询问“巴黎是哪个国家的首都?” 其“记忆+专家”双引擎架构,不仅是对现有技术瓶颈的巧妙破解,更是对未来通用人工智能(AGI)形态的一次深刻探索。

    45130编辑于 2026-04-24
  • 来自专栏大模型系列

    万亿参数震撼发布:DeepSeek V4 MoE架构深度解析

    3.2Engram(条件记忆)模块:根治“幻觉魔咒”这是DeepSeek团队于2026年初提出的革命性创新,旨在解决大模型“记不住硬核知识”的根本问题。 工作流程:在推理时,模型首先通过其神经网络进行动态推理,同时并行地查询Engram记忆库。如果查询命中,就直接使用精确的事实;如果未命中,则依赖神经网络的泛化能力。 一种新的稀疏维度:Engram被视为继MoE之后,大模型稀疏化的“新轴心”,为模型轻量化和持续学习提供了新路径。Engram的技术细节与创新Engram模块的设计灵感来源于人类大脑的记忆机制。 研究发现,MoE与Engram之间存在一条“U形scalinglaw”,意味着未来需要在计算与静态记忆之间找到最优资源配比。这个思路可能成为稀疏架构的下一条主流路线。 它通过将MoE的规模、Engram记忆、mHC的稳定、DSA的效率四者有机结合,成功构建了一个既能“装得下”海量知识,又能“跑得快”且“用得起”的新一代大模型。

    40830编辑于 2026-05-14
  • 来自专栏程序员

    智能体(Agent)的记忆架构:深入解析短期记忆与长期记忆

    在人工智能领域,尤其是基于大语言模型(LLM)的智能体(Agent)系统中,记忆机制是实现持续、连贯和个性化交互的核心基石。记忆系统模拟了人类的认知结构,通常划分为短期记忆和长期记忆。 第一章:短期记忆——智能体的工作记忆与意识流1.1定义与本质短期记忆是智能体用于处理当前任务或单次会话的临时信息存储区。 注意力机制:短期记忆的有效性依赖于Transformer架构的核心——注意力机制。 检索长期记忆:系统将当前查询与短期记忆的上下文结合,作为“检索键”,在长期记忆库中进行向量相似性搜索,找出相关记忆。 结论与展望短期记忆和长期记忆是构成智能体认知架构的两大支柱。

    2.3K11编辑于 2025-09-25
  • 来自专栏凯哥讲故事系列

    凯哥 丨 AI 进入存算解耦的新纪元

    论文提出了一个叫 Engram 的条件记忆模块:把经典 N-gram 做成现代化的 O(1) 查表记忆外挂,用确定性哈希在巨大表里秒级定位向量,再通过门控把“记忆向量”注入 Transformer 主干 1)把 N-gram 从垃圾堆里捡回来,做成“可扩展的条件记忆Engram 的思想很“复古”:N-gram。 3)存储稀疏:比 MoE 更彻底的“只读我需要的记忆” MoE 是“只算部分专家”,仍然需要路由与激活管理。 Engram 是“只读少量记忆”,并且通过确定性地址减少路由负担。 结果就是: 高频、模板化、可结构化的知识:走 Engram/lookup 低频、长文本、强语义推理:继续走 RAG + 主干推理 这会让企业知识系统的架构重新洗牌:从“全靠 RAG”走向“记忆层 + 检索层 这就是 Engram 的长期主义: 它没有用更贵的算力去压缩问题,而是用更朴素的结构把问题拆开——让“计算”去做计算,让“记忆”去做记忆

    30210编辑于 2026-01-22
  • 来自专栏CreateAMind

    记忆产生和巩固建模研究总结(3假设3发现3创新符合13篇脑科学实验和假设)

    ,使得突触强度增强或减弱[23]; 11.记忆结构和大脑信号穿透性关系,类似信号穿越凸凹透镜焦点附近[24]; 12.我们的大脑可能是一台量子计算机[25],对于量子计算机的模拟涉及到情绪和认知,认知产生相对正向和负向情绪时 decrease synaptic strength [23]. 11. PNN对深度学习和进化计算的创新: 1.PNN把RNN架构改造有点类似CNN,而算法有些类似ResNet,池化过程或层数计算有些类似突触有效范围的更新,PNN也有共享连接权重;前向计算和反向计算除了考虑共享连接权重 Trends Cogn Sci. 2022 Nov;26(11):909-922. doi: 10.1016/j.tics.2022.08.012. Epub 2022 Sep 15. Engram cells retain memory under retrograde amnesia.

    32620编辑于 2023-09-01
  • 来自专栏大模型系列

    解密DeepSeek-V4 预览版Engram 记忆模块、mHC 稳定训练与百万Token稀疏注意力的三大突破——百万Token上下文的智能压缩引擎

    V4的三大技术突破,分别针对当前大模型面临的三大核心挑战:幻觉魔咒(HallucinationCurse):事实性错误频发→Engram条件记忆。 2.2Engram的设计哲学:为大模型装上“海马体”Engram模块的设计灵感直接来源于人类大脑的海马体(Hippocampus),后者负责快速、精准地检索长期记忆中的事实性知识。 Engram旨在为大模型提供一个独立的、外部的、可即时访问的“活字典”,实现条件记忆(ConditionalMemory)。 整体架构:这三大技术共同支撑起了V4的“双轴稀疏架构”——Engram代表“记忆”轴的稀疏(只检索相关知识),MoE代表“计算”轴的稀疏(只激活相关专家),而DSA则是让这两者能在超长上下文中高效协同的 结论DeepSeek-V4的三大技术突破——Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力——共同构成了一场深刻的架构革命。

    54220编辑于 2026-04-29
  • 来自专栏AgenticAI

    DeepSeek新模型MODEL1曝光!

    DeepSeek在其成立一周年之际,曝光了一款名为MODEL1的全新架构模型。 (V32)作为不同的模型架构出现 关键技术突破 统一回归512标准维度:优化了模型的核心参数配置 首创"值向量位置感知":在注意力机制上的重要创新 引入Engram机制:条件记忆通过可扩展查找实现,解决 Transformer缺乏原生查表记忆的缺陷 DSA(DeepSeek Sparse Attention)机制:实现显存效率与推理精度的双重跨越 内存优化技术 代码差异主要体现在: KV缓存布局优化 稀疏性处理改进 FP8解码优化 技术架构对比 特性 MODEL1 V3.2 架构类型 全新架构 现有架构 硬件支持 SM90 + SM100 主要SM90 核心创新 值向量位置感知 + Engram 传统MLA 内存优化 FP8 + 稀疏处理 标准优化 性能优势 MODEL1通过引入Engram机制,实现了: O(1)查表取向量:让模型直接获取知识而非逐层计算 条件记忆机制:将20-25%参数用于记忆存储,效果最佳

    66310编辑于 2026-01-22
  • 来自专栏CreateAMind

    记忆是什么?记忆印记进行湍流运动的临界值和沿途损失、为什么脑纵剖面几何形状像螺旋波?解释AD的15个现象

    我们假设海马体存储记忆大脑架构为r,而这个r有可能受到自心脏频率和大脑架构的量子纠缠的作用[25]。 只有角应变 ,第2层记忆架构就是 ,因为湍流扩散第n层记忆架构 ,对数螺旋线n-1阶导数就是记忆印记形状近似,只是记忆印记的图像质量进行了压缩,取w<1就是记忆传输到上游脑区逐渐减弱,w就是突触连接和范围权重 下游第一皮层的记忆架构是 ,那上游第n皮层的记忆架构可能近似是 的n-1阶导数。 给出了记忆印记的公式并进行了n阶求导。 研究基于湍流给出了记忆从下游脑区向上游脑区流动可能是架构变化率的传递,并且下游第一皮层的记忆架构是 ,那上游第n皮层的记忆架构可能近似是 的n-1阶导数,我们的记忆可能是二维对数螺旋线,这样 的n 研究最早给出了记忆架构的公式-对数螺旋线,在脑区间湍流运动只是能量损耗而记忆印记近似。

    42650编辑于 2023-09-29
  • 来自专栏大模型系列

    打破幻觉与成本魔咒:DeepSeek-V4 如何用双轴稀疏架构重塑大模型未来?

    V4并非简单的参数堆砌,而是通过一场深刻的架构革命——双轴稀疏架构,从根本上重构了大模型的“记忆”与“计算”范式。 知识与推理混淆:传统Transformer架构将“记忆”(存储事实知识)和“计算”(进行逻辑推理)混杂在同一套参数中。模型被迫用昂贵的计算过程去“模拟”对静态知识的检索,效率低下且极易出错。 这构成了其双轴稀疏架构的核心:第一轴:MoE-条件计算:负责动态的、复杂的逻辑推理和创造性任务。第二轴:Engram-条件记忆:负责高效、精准地存储和检索静态的、确定性的事实知识。 3.1Engram条件记忆模块:打造大模型的“活字典外挂”3.1.1设计动机传统模型将所有知识都编码在神经网络的权重中。 通过将“记忆”与“计算”分离,V4巧妙地绕开了传统架构的根本性缺陷,在降低成本的同时,反而提升了模型的准确性和可靠性,特别是有效遏制了长期困扰行业的“幻觉”问题。

    43220编辑于 2026-04-24
  • 来自专栏CreateAMind

    为什么脑纵剖面几何形状像螺旋波-可能至少需要一个等角螺旋运动信息才能发生湍流传递

    我们假设海马体存储记忆大脑架构为r,而这个r有可能受到自心脏频率和大脑架构的量子纠缠的作用[25]。 只有角应变 ,第2层记忆架构就是 ,因为湍流扩散第n层记忆架构 ,对数螺旋线n-1阶导数就是记忆印记形状近似,只是记忆印记的图像质量进行了压缩,取b<1就是记忆传输到上游脑区逐渐减弱, b和突触连接和有效范围权重有关 下游第一皮层的记忆架构是 ,那上游第n皮层的记忆架构可能近似是 的n-1阶导数。 给出了记忆印记的公式并进行了n阶求导。 研究基于湍流给出了记忆从下游脑区向上游脑区流动可能是架构变化率的传递,并且下游第一皮层的记忆架构是 ,那上游第n皮层的记忆架构可能近似是 的n-1阶导数,我们的记忆可能是二维对数螺旋线,这样 的n 研究最早给出了记忆架构的公式-对数螺旋线,在脑区间湍流运动只是能量损耗而记忆印记近似。

    46730编辑于 2023-10-10
  • 来自专栏AI SPPECH

    35:Multimodal Memory系统设计:短期记忆、长期记忆、结构化+Graph记忆架构

    记忆架构的结合,构建高效的多模态记忆系统。 核心技术架构 4.1 系统架构 4.2 核心组件 5. 工具与库推荐 11. 未来发展趋势 12. 总结与建议 12.1 总结 12.2 建议 环境配置 常见问题处理 1. 核心技术架构 4.1 系统架构 4.2 核心组件 组件 功能 作用 数据预处理 处理多模态输入数据 标准化和特征提取 短期记忆 存储近期和临时信息 快速访问和处理 长期记忆 存储长期和重要信息 持久化存储和检索 增强推理能力:基于记忆结构支持复杂推理 高效更新机制:支持记忆的动态更新和维护 多模态融合:实现不同模态信息的有效融合 12.2 建议 技术选型:根据应用场景选择合适的记忆组件和工具 架构设计:根据业务需求设计合理的记忆架构

    31010编辑于 2026-04-05
  • 来自专栏CreateAMind

    多皮层心脑建模-记忆产生、巩固和丧失(认知障碍和阿尔兹海默症的可能机理)并通过突触强度再平衡改变大脑架构

    多皮层心脑建模-记忆产生、巩固和丧失(认知障碍和阿尔兹海默症的可能机理)并通过突触强度再平衡改变大脑架构(4假设、4发现、3创新并符合15篇脑科学实验和假设)(第3版) Multiple cortexes 心脏产生正向 和负向 脉冲频率,脉冲频率相互作用电位信号加强或减弱突触,进而改变相对好或差的大脑架构 和 。 这种超越时空量子纠缠在心脏频率积累 和 反馈给大脑架构积累就是 和 ,并因为大脑内的壁垒满足指数的衰减[25]。 ,使得突触强度增强或减弱[23]; 11.记忆结构和大脑信号穿透性关系,类似信号穿越凸凹透镜焦点附近[24]; 12.我们的大脑可能是一台量子计算机[25],对于量子计算机的模拟涉及到情绪和认知,认知产生相对正向和负向情绪时 decrease synaptic strength [23]; 11.

    45640编辑于 2023-09-01
  • 来自专栏技术人生黄勇

    没人整理过的 DeepSeek 进化史:25篇论文里的技术蜕变

    7.2 Engram——条件记忆:稀疏性的新轴 论文:Engram: Conditional Memory via Scalable Lookup | arXiv:2601.07372 | 2026年 Engram 提出了条件记忆(conditional memory)作为稀疏性的新轴:用N-gram嵌入的现代化版本,实现O(1)的静态知识查找。 关键发现: • U形缩放定律:MoE计算和Engram记忆之间存在最优的分配比例 • Engram 在知识检索任务上带来巨大提升(MMLU +3.4, CMMLU +4.0),在推理任务上提升更大(BBH 8.3 Engram——推测可能会在V5 Engram(条件记忆)并未进入V4,推测下一代V5。 Engram的"条件记忆"概念——将MoE的条件计算和O(1)静态知识查找结合——代表着更根本性的架构变革。

    74110编辑于 2026-04-28
  • 来自专栏大模型系列

    解密 DeepSeek V4:双轴稀疏 MoE + Engram 记忆 + Muon 优化器,如何打造高效万亿模型?

    2.4Engram记忆架构Engram记忆架构是DeepSeekV4在长上下文处理方面的另一项重要创新。 该架构借鉴了神经科学中“记忆痕迹”(Engram)的概念,通过以下机制增强模型的记忆能力:记忆单元:在Transformer层之间插入专门的记忆单元,用于存储和检索长期依赖信息;记忆更新:采用可学习的更新规则 5.3.2智能体开发Agent框架:支持复杂的智能体开发,具备优秀的规划和执行能力;多工具集成:能够调用外部工具和API,扩展功能边界;长期记忆:通过Engram架构实现长期记忆和经验积累。 避免专家偏斜问题;更强的记忆能力:增强Engram架构,实现更长期、更可靠的记忆存储。 其创新的MoE架构、双轴稀疏设计、混合注意力机制、Engram记忆架构等技术突破,不仅解决了超大规模模型的效率问题,更在长上下文处理、推理性能、成本控制等方面实现了全面领先。

    22220编辑于 2026-05-16
领券