首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 今天 AI 记忆系统又进了一步:Engram、Claude Code、EdgeClaw 正在把“长期记忆”做成工程能力

    一边,是面向开发者的开源图记忆Engram Memory SDK;一边,是 Claude Code 对长期任务记忆架构的极简重构;另一边,则是 OpenBMB 在 EdgeClaw 2.0 中把多级记忆能力正式产品化 先说结论:记忆系统开始从功能点走向架构层 过去很多 Agent 的“记忆”,本质上还是向量库加检索片段。 Claude Code:长期记忆不是堆更多内容,而是减少熵增 Claude Code 这次提出的记忆系统架构,最值得关注的地方,不是“记得更多”,而是“如何防止越记越乱”。 官方描述中,EdgeClaw 2.0 构建的是一套 四级记忆架构,覆盖从原始对话记录的细粒度溯源,到全局档案层面的个性化偏好管理。 大家虽然路径不同,但都在回答同一个问题: 长期记忆必须成本可控,否则无法规模化。 3. 好记忆不是记得多,而是记得对、调得准、还能不断整理 这可能是这波更新里最重要的共识。

    33710编辑于 2026-04-09
  • 来自专栏亨利笔记

    迈向V4R2之路:揭秘DeepSeek Engram如何解放大模型算力,激发高级智能

    而 DeepSeek 这次 Engram 的“条件记忆”技术将模型的"记忆"与"计算"能力解耦,实现了"查算分离"的全新架构范式。 3. mHC架构集成:既分工又协作 一些的主流大模型采用了“流形约束超连接”(mHC),就像多个策划师协作完成一个复杂项目。 八、结语:条件记忆将是下一代大模型的核心构件 Engram 架构的出现,本质上是对大模型“任务分工”的重新定义,通过条件记忆与条件计算的互补,让模型的不同部分各司其职,实现了“性能、效率和可扩展性”的三重突破 效率优化:功能上等价于增加模型有效深度,释放注意力机制,提升表示效率; 3. 系统突破:确定性寻址实现计算与内存解耦,突破 GPU 内存墙,让万亿级参数的记忆表可低成本部署。 Engram 技术标志着大模型架构设计进入了一个新的里程碑。它通过显式记忆存储与检索机制,解决了传统 Transformer 模型在静态知识处理上的效率问题,实现了"查算分离"的范式革新。

    2.2K21编辑于 2026-01-19
  • 35倍推理加速,成本砍掉97%——DeepSeek V4要重写大模型游戏规则

    这篇文章会带你从V3的技术遗产出发,逐层拆解V4的三张核心技术底牌——mHC流形约束超连接、Engram条件记忆架构、以及新一代MoE稀疏计算,看看DeepSeek凭什么用更少的芯片做到了更猛的性能。 2024年底,DeepSeekV3以671B参数的MoE架构横空出世,训练成本只有278.8万美元——这个数字放在当时的行业背景下几乎是不可理喻的。 指标DeepSeekV3DeepSeekV4(预计)总参数量671B~1T架构MoE+MLAMoE+MLA+mHC+Engram上下文长度128Ktokens1Mtokens推理速度基准最高35倍提升内存占用基准降低约 它的灵感来自认知科学中的"印迹记忆"(Engram)概念——人类大脑中存储特定记忆痕迹的神经元集群。 但现在就可以用V3的128K上下文做一些预研和架构设计。

    3.7K120编辑于 2026-04-15
  • 来自专栏算法一只狗

    给大模型配一本“速查手册”:DeepSeek 的 Engram 到底解决了什么问题?

    对于传统的transformers架构来说,模型看到这句话时,其实要经历一串“隐式重建”的过程:逐字读入「美国、总统、现在、是谁」在多层网络里慢慢组合出:这是一个国家相关实体、这是一个职位;然后把“美国总统 整体的框架流程论文中已经画出来了~如果用一句话概括:MoE解决的是“算得更聪明”(条件计算),Engram解决的是“记得更便宜”(条件记忆)。两者是互补结构。 第一步是切片:从输入里提取2-gram、3-gram等局部片段(常用的是后缀形式)。 Engram的“门控(gating)”确实学会了:只在“这是一个稳定、固定的局部模式”时才强力介入,而不是对所有token都乱用记忆。 目前DeepSeek在走极致化的“稀疏”路线:MoE:计算的稀疏化Engram:存储的稀疏化如果这条路跑通,未来可能出现一种很有代表性的架构形态:小而精的推理核心+可扩展、可更新的超大记忆库。

    1K40编辑于 2026-01-16
  • 来自专栏ceshiren0001

    DeepSeek 深夜发布 Engram:比 MoE 更节能的突破,V4 架构初露端倪

    」从神经网络里拆出来的架构实验。 二、Engram 在做什么?一句话:该查的,别算“Engram” 是神经科学中的术语,意为 记忆痕迹。在这篇论文里,它被实现为一个可扩展、可学习、可条件触发的记忆模块。 可以这样理解:模块在干什么Engram快速回忆“我以前见过什么”MoE / Transformer认真思考“现在该怎么推理”在架构上,Engram 被放在较早的层级,用于模式重构与事实补全; 而深层网络 但 DeepSeek 做的,是把它们重新放回现代 LLM 架构的正确位置。五、V4 会用吗?没人官宣,但信号已经很明显DeepSeek 并没有说 Engram 会直接进入 V4。 如果说 V2 / V3 的关键词是 MoE 扩展效率, 那么 Engram 暗示的,是下一阶段的主题:记忆与推理的结构性分离。

    54110编辑于 2026-01-15
  • 来自专栏大模型系列

    万亿参数震撼发布:DeepSeek V4 MoE架构深度解析

    3.2Engram(条件记忆)模块:根治“幻觉魔咒”这是DeepSeek团队于2026年初提出的革命性创新,旨在解决大模型“记不住硬核知识”的根本问题。 工作流程:在推理时,模型首先通过其神经网络进行动态推理,同时并行地查询Engram记忆库。如果查询命中,就直接使用精确的事实;如果未命中,则依赖神经网络的泛化能力。 一种新的稀疏维度:Engram被视为继MoE之后,大模型稀疏化的“新轴心”,为模型轻量化和持续学习提供了新路径。Engram的技术细节与创新Engram模块的设计灵感来源于人类大脑的记忆机制。 研究发现,MoE与Engram之间存在一条“U形scalinglaw”,意味着未来需要在计算与静态记忆之间找到最优资源配比。这个思路可能成为稀疏架构的下一条主流路线。 它通过将MoE的规模、Engram记忆、mHC的稳定、DSA的效率四者有机结合,成功构建了一个既能“装得下”海量知识,又能“跑得快”且“用得起”的新一代大模型。

    40830编辑于 2026-05-14
  • 来自专栏大模型系列

    不是更大,而是更聪明:DeepSeek-V4用“记忆+专家”双引擎颠覆大模型范式—压缩稀疏注意力、DSA、Lightning Indexer

    其核心创新在于一套名为“双轴稀疏架构”的系统性设计,该架构由两大引擎驱动:“Engram条件记忆引擎”与“MoE混合专家计算引擎”。 DeepSeek-V4的“双引擎”架构正是对这一生物机制的工程化复现:Engram条件记忆引擎≈海马体:高效、无损地存储和检索静态知识。MoE混合专家计算引擎≈新皮层:动态、灵活地处理复杂的推理任务。 第二章:第一引擎——Engram条件记忆:为大模型装上“海马体”2.1设计动机:为什么需要一个独立的记忆模块?在传统模型中,所有知识都内化于神经网络的权重之中。当用户询问“巴黎是哪个国家的首都?” N-gram提取:将文本分解成连续的N个词(N-gram),例如“ParisisthecapitalofFrance”可以被分解为多个2-gram或3-gram。 其“记忆+专家”双引擎架构,不仅是对现有技术瓶颈的巧妙破解,更是对未来通用人工智能(AGI)形态的一次深刻探索。

    45130编辑于 2026-04-24
  • 来自专栏凯哥讲故事系列

    凯哥 丨 AI 进入存算解耦的新纪元

    3)存储稀疏:比 MoE 更彻底的“只读我需要的记忆” MoE 是“只算部分专家”,仍然需要路由与激活管理。 Engram 是“只读少量记忆”,并且通过确定性地址减少路由负担。 结果就是: 高频、模板化、可结构化的知识:走 Engram/lookup 低频、长文本、强语义推理:继续走 RAG + 主干推理 这会让企业知识系统的架构重新洗牌:从“全靠 RAG”走向“记忆层 + 检索层 3)模型生态:大模型主干会更像“CPU”,外挂更像“PCIe 插卡” 一旦记忆外挂成立,“模型主干”的角色会更清晰:负责推理、泛化、策略; 而“外挂模块”负责:记忆、工具、规则、领域知识、甚至合规策略。 预测 3:MoE 的下一站是“混合稀疏”:算得少 + 记得快 MoE 解决计算稀疏,Engram 解决存储稀疏。二者组合会成为新的工程默认项: MoE 管会想,Engram 管会背。 这就是 Engram 的长期主义: 它没有用更贵的算力去压缩问题,而是用更朴素的结构把问题拆开——让“计算”去做计算,让“记忆”去做记忆

    30210编辑于 2026-01-22
  • 来自专栏程序员

    智能体(Agent)的记忆架构:深入解析短期记忆与长期记忆

    在人工智能领域,尤其是基于大语言模型(LLM)的智能体(Agent)系统中,记忆机制是实现持续、连贯和个性化交互的核心基石。记忆系统模拟了人类的认知结构,通常划分为短期记忆和长期记忆。 第一章:短期记忆——智能体的工作记忆与意识流1.1定义与本质短期记忆是智能体用于处理当前任务或单次会话的临时信息存储区。 注意力机制:短期记忆的有效性依赖于Transformer架构的核心——注意力机制。 检索长期记忆:系统将当前查询与短期记忆的上下文结合,作为“检索键”,在长期记忆库中进行向量相似性搜索,找出相关记忆。 结论与展望短期记忆和长期记忆是构成智能体认知架构的两大支柱。

    2.3K11编辑于 2025-09-25
  • 来自专栏大模型系列

    解密DeepSeek-V4 预览版Engram 记忆模块、mHC 稳定训练与百万Token稀疏注意力的三大突破——百万Token上下文的智能压缩引擎

    2.2Engram的设计哲学:为大模型装上“海马体”Engram模块的设计灵感直接来源于人类大脑的海马体(Hippocampus),后者负责快速、精准地检索长期记忆中的事实性知识。 Engram旨在为大模型提供一个独立的、外部的、可即时访问的“活字典”,实现条件记忆(ConditionalMemory)。 资源消耗锐减:相比于V3.2,单Token的计算量(FLOPs)降低了3-10倍,显存占用大幅减少。推理加速:结合MoE和Engram,V4的端到端推理速度相比同级别稠密模型提升了2.3倍以上。 整体架构:这三大技术共同支撑起了V4的“双轴稀疏架构”——Engram代表“记忆”轴的稀疏(只检索相关知识),MoE代表“计算”轴的稀疏(只激活相关专家),而DSA则是让这两者能在超长上下文中高效协同的 结论DeepSeek-V4的三大技术突破——Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力——共同构成了一场深刻的架构革命。

    54220编辑于 2026-04-29
  • 来自专栏技术人生黄勇

    春节前这波“偷袭”!DeepSeek 没官宣,但偷偷点了什么技能?

    窗口只是表象,真正藏在更新里的,是mHC流形约束与Engram条件记忆两项底层架构落地。” 3、推动架构革新: 它代表了 AI 从“堆算力”向“懂数学”的转变,被视为 DeepSeek 架构升级的核心基石。 03 — 条件记忆模块(Engram) 核心定义: Engram 是 DeepSeek 提出的“条件记忆”技术,核心目标是为大模型植入类似人类的“深层速记能力”。 3、硬件解耦: Engram 通过“空间折叠”技术,将数百亿参数存入主机内存(CPU RAM),缓解了对高带宽内存(HBM)的依赖。 Engram 关注的是‍“如何让模型想得更省力”‍,通过记忆检索解决算力浪费和显存限制。

    36010编辑于 2026-03-11
  • 来自专栏AgenticAI

    DeepSeek新模型MODEL1曝光!

    DeepSeek在其成立一周年之际,曝光了一款名为MODEL1的全新架构模型。 (V32)作为不同的模型架构出现 关键技术突破 统一回归512标准维度:优化了模型的核心参数配置 首创"值向量位置感知":在注意力机制上的重要创新 引入Engram机制:条件记忆通过可扩展查找实现,解决 Transformer缺乏原生查表记忆的缺陷 DSA(DeepSeek Sparse Attention)机制:实现显存效率与推理精度的双重跨越 内存优化技术 代码差异主要体现在: KV缓存布局优化 稀疏性处理改进 FP8解码优化 技术架构对比 特性 MODEL1 V3.2 架构类型 全新架构 现有架构 硬件支持 SM90 + SM100 主要SM90 核心创新 值向量位置感知 + Engram 传统MLA 内存优化 FP8 + 稀疏处理 标准优化 性能优势 MODEL1通过引入Engram机制,实现了: O(1)查表取向量:让模型直接获取知识而非逐层计算 条件记忆机制:将20-25%参数用于记忆存储,效果最佳

    66310编辑于 2026-01-22
  • 来自专栏大模型系列

    打破幻觉与成本魔咒:DeepSeek-V4 如何用双轴稀疏架构重塑大模型未来?

    V4并非简单的参数堆砌,而是通过一场深刻的架构革命——双轴稀疏架构,从根本上重构了大模型的“记忆”与“计算”范式。 这构成了其双轴稀疏架构的核心:第一轴:MoE-条件计算:负责动态的、复杂的逻辑推理和创造性任务。第二轴:Engram-条件记忆:负责高效、精准地存储和检索静态的、确定性的事实知识。 3.1Engram条件记忆模块:打造大模型的“活字典外挂”3.1.1设计动机传统模型将所有知识都编码在神经网络的权重中。 资源消耗锐减:相比于V3.2,单Token的计算量(FLOPs)降低了3-10倍,显存占用大幅减少。推理加速:结合MoE和Engram,V4的端到端推理速度相比同级别稠密模型提升了2.3倍以上。 通过将“记忆”与“计算”分离,V4巧妙地绕开了传统架构的根本性缺陷,在降低成本的同时,反而提升了模型的准确性和可靠性,特别是有效遏制了长期困扰行业的“幻觉”问题。

    43220编辑于 2026-04-24
  • DeepSeek-V4 发布在即:万亿参数与架构级创新重塑大模型景观

    作为继 R1 推理模型之后的又一里程碑,DeepSeek-V4 通过架构级创新,试图打破算力瓶颈,在更低成本下实现性能跃迁。 核心技术突破:从计算密集转向“记忆”优化DeepSeek-V4 的核心创新在于其革命性的 Engram(条件存储)架构。该技术将大模型的“静态知识记忆”与“动态逻辑计算”进行了有效分离。 Engram 架构允许模型将庞大的知识索引表存储在成本更低的 CPU 系统内存(DRAM) 甚至 NVMe SSD 中,仅在需要时进行高效检索。 实验表明,Engram 能精准识别如“亚历山大大帝”或“四大发明”等固化语言模式,减轻 Transformer 主干的负担,为万亿级参数规模的平价扩展铺平了道路。 在推理侧,配套的 DualPath:a-3.org.cn(双路径)系统 结合了与北大、清华团队合作的智能体推理框架。

    4.1K280编辑于 2026-03-03
  • 当所有人都在堆参数的时候,DeepSeek V4悄悄做了三件别人不敢做的事

    真正值得深挖的是它在底层架构上动了三处手术:流形约束超连接(mHC)、Engram印迹条件记忆、DualPath推理加速。 技术创新解决的核心问题作用阶段mHC流形约束超连接MoE超深网络训练不稳定训练阶段Engram印迹条件记忆长上下文中信息检索效率低架构层面DualPath推理框架KV-CacheIO瓶颈,推理成本高推理阶段下面我逐一展开 MoE(MixtureofExperts)架构是当前大模型的主流选择,DeepSeekV3/V4、Qwen3、Llama4都用了这个架构。 3.2Engram的设计哲学DeepSeek的Engram架构灵感来自神经科学中的"印迹"(Engram)概念——人脑并不是把所有记忆都平等存储的,而是根据信息的关联性建立条件性的检索路径。 这不是简单的"把数字改大"——背后是Engram架构在支撑。没有条件记忆机制,100万token的KV-Cache在当前硬件条件下根本跑不起来。第三,原生多模态的加入。

    94830编辑于 2026-04-18
  • 来自专栏大模型系列

    万字长文解读 DeepSeek-V4:百万上下文、万亿参数、开源免费,国产大模型迎来JPEG时刻—解密 Engram 记忆模块、MHC 稳定训练与百万Token

    极致性价比:推理成本仅为 LLaMA-3-70B 的 1/70,V4-Flash 版本的输入价格低至 0.2元/百万Token。 二、核心技术解密:双轴稀疏架构的范式革命DeepSeek-V4 的强大并非凭空而来,其背后是两大开创性技术的支撑:Engram 条件记忆模块 和 MoE(Mixture of Experts)条件计算。 这两者共同构成了其“记忆-计算分离”的双轴稀疏架构,这是对传统大模型设计的一次根本性颠覆。1. Engram 条件记忆:给AI配一本“超级活字典”想象一下,让一个学生去参加一场开卷考试。 他不需要把所有知识都死记硬背在脑子里(参数),只需要在遇到确定性问题时,快速翻阅手边的参考书(外部记忆)即可。Engram 模块正是扮演了这本“超级活字典”的角色。 MoE + MHC:打造稳定高效的“专家团队”如果说 Engram 解决了“记忆”问题,那么 MoE(混合专家)架构则解决了“计算”问题。

    2.7K100编辑于 2026-04-24
  • 来自专栏不二小段

    DeepSeek 最新论文成果,站在字节豆包的肩膀上

    从 N-gram 到 Over-Encoding,再到 Engram,优化「记忆范式」 与模型的信息骨架并行的,是关于模型如何「记忆」的探索。 DeepSeek 的 Engram 模块,正是在 Over-Encoding 等工作的基础上,将「静态记忆增强」升级为了「动态条件记忆」。 只有与当前上下文相关的记忆才会被激活并融入到后续计算中,不相关的则被抑制。 3. 解耦:由于查找地址是确定性的,Engram 可以被设计为与主计算流程解耦的独立模块。 DeepSeek 通过实验发现了「计算」与「记忆」资源分配的 U 型定律:无论是纯粹的计算(100% MoE)还是纯粹的记忆(100% Engram),都非最优解。 将大约 20%-25% 的稀疏参数预算从计算专家再分配给记忆模块,才能达到最佳性能。 小结 总的来说,mHC 和 Engram 体现出相似的演进路线,一种相互学习、相互启发的螺旋迭代。

    25610编辑于 2026-04-09
  • 来自专栏AI SPPECH

    35:Multimodal Memory系统设计:短期记忆、长期记忆、结构化+Graph记忆架构

    记忆架构的结合,构建高效的多模态记忆系统。 通过这种多模态记忆架构,显著提升AI系统的知识管理和推理能力。 目录 1. 本节为你提供的核心技术价值 2. 传统记忆系统的局限性 3. Multimodal Memory系统的核心优势 4. 核心技术架构 4.1 系统架构 4.2 核心组件 5. :无法基于记忆进行复杂的推理和决策 更新困难:记忆更新机制不完善,难以适应新信息 多模态融合差:不同模态信息之间的融合效果不佳 3. 增强推理能力:基于记忆结构支持复杂推理 高效更新机制:支持记忆的动态更新和维护 多模态融合:实现不同模态信息的有效融合 12.2 建议 技术选型:根据应用场景选择合适的记忆组件和工具 架构设计:根据业务需求设计合理的记忆架构

    31010编辑于 2026-04-05
  • 来自专栏CreateAMind

    记忆是什么?记忆印记进行湍流运动的临界值和沿途损失、为什么脑纵剖面几何形状像螺旋波?解释AD的15个现象

    我们假设海马体存储记忆大脑架构为r,而这个r有可能受到自心脏频率和大脑架构的量子纠缠的作用[25]。 只有角应变 ,第2层记忆架构就是 ,因为湍流扩散第n层记忆架构 ,对数螺旋线n-1阶导数就是记忆印记形状近似,只是记忆印记的图像质量进行了压缩,取w<1就是记忆传输到上游脑区逐渐减弱,w就是突触连接和范围权重 下游第一皮层的记忆架构是 ,那上游第n皮层的记忆架构可能近似是 的n-1阶导数。 给出了记忆印记的公式并进行了n阶求导。 研究基于湍流给出了记忆从下游脑区向上游脑区流动可能是架构变化率的传递,并且下游第一皮层的记忆架构是 ,那上游第n皮层的记忆架构可能近似是 的n-1阶导数,我们的记忆可能是二维对数螺旋线,这样 的n 研究最早给出了记忆架构的公式-对数螺旋线,在脑区间湍流运动只是能量损耗而记忆印记近似。

    42650编辑于 2023-09-29
  • 来自专栏大模型系列

    解密 DeepSeek V4:双轴稀疏 MoE + Engram 记忆 + Muon 优化器,如何打造高效万亿模型?

    2.4Engram记忆架构Engram记忆架构是DeepSeekV4在长上下文处理方面的另一项重要创新。 该架构借鉴了神经科学中“记忆痕迹”(Engram)的概念,通过以下机制增强模型的记忆能力:记忆单元:在Transformer层之间插入专门的记忆单元,用于存储和检索长期依赖信息;记忆更新:采用可学习的更新规则 5.3.2智能体开发Agent框架:支持复杂的智能体开发,具备优秀的规划和执行能力;多工具集成:能够调用外部工具和API,扩展功能边界;长期记忆:通过Engram架构实现长期记忆和经验积累。 避免专家偏斜问题;更强的记忆能力:增强Engram架构,实现更长期、更可靠的记忆存储。 其创新的MoE架构、双轴稀疏设计、混合注意力机制、Engram记忆架构等技术突破,不仅解决了超大规模模型的效率问题,更在长上下文处理、推理性能、成本控制等方面实现了全面领先。

    22220编辑于 2026-05-16
领券