搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

今天 AI 记忆系统又进了一步：Engram、Claude Code、EdgeClaw 正在把“长期记忆”做成工程能力
一边，是面向开发者的开源图记忆库 Engram Memory SDK；一边，是 Claude Code 对长期任务记忆架构的极简重构；另一边，则是 OpenBMB 在 EdgeClaw 2.0 中把多级记忆能力正式产品化先说结论：记忆系统开始从功能点走向架构层过去很多 Agent 的“记忆”，本质上还是向量库加检索片段。 Claude Code：长期记忆不是堆更多内容，而是减少熵增 Claude Code 这次提出的记忆系统架构，最值得关注的地方，不是“记得更多”，而是“如何防止越记越乱”。官方描述中，EdgeClaw 2.0 构建的是一套四级记忆架构，覆盖从原始对话记录的细粒度溯源，到全局档案层面的个性化偏好管理。记忆系统正在从“外挂检索”走向“原生架构” 过去的做法，常常是先有 Agent，再额外挂一个 RAG 或向量库。现在的变化是：记忆已经不再是附加模块，而是开始进入系统设计的一开始。
33710编辑于 2026-04-09
35倍推理加速，成本砍掉97%——DeepSeek V4要重写大模型游戏规则
这篇文章会带你从V3的技术遗产出发，逐层拆解V4的三张核心技术底牌——mHC流形约束超连接、Engram条件记忆架构、以及新一代MoE稀疏计算，看看DeepSeek凭什么用更少的芯片做到了更猛的性能。 :#e1f5festyleHfill:#c8e6c9styleIfill:#c8e6c9styleJfill:#c8e6c9styleKfill:#c8e6c9三、Engram：给大模型装一个"外挂记忆体它的灵感来自认知科学中的"印迹记忆"（Engram）概念——人类大脑中存储特定记忆痕迹的神经元集群。如果你有自己的垂直领域模型，Engram的"外挂记忆"思路可以用来注入领域知识——不需要重新训练整个模型，只需要在记忆表中写入专业知识对应的嵌入向量。 :#e8f5e9styleDfill:#f3e5f5七、写在最后DeepSeekV4还没有正式发布，本文所有技术细节都基于公开论文、GitHub仓库和行业报道整理，最终规格以DeepSeek官方发布为准
3.7K120编辑于 2026-04-15
来自专栏亨利笔记
迈向V4R2之路：揭秘DeepSeek Engram如何解放大模型算力，激发高级智能
而 DeepSeek 这次 Engram 的“条件记忆”技术将模型的"记忆"与"计算"能力解耦，实现了"查算分离"的全新架构范式。比如 Engram-27B 的第5层表征，和 MoE 基线的第12层最为接近，相当于 Engram 用更少的物理层数，实现了更深的语义理解。结合 DeepSeek 年初发布的 mHC（流形约束超连接）框架，下一代模型的架构轮廓已呼之欲出了：融合 mHC 优化专家间通信效率，引入 Engram 作为独立记忆模块，形成“动态计算+静态检索”的协同模式八、结语：条件记忆将是下一代大模型的核心构件 Engram 架构的出现，本质上是对大模型“任务分工”的重新定义，通过条件记忆与条件计算的互补，让模型的不同部分各司其职，实现了“性能、效率和可扩展性”的三重突破系统突破：确定性寻址实现计算与内存解耦，突破 GPU 内存墙，让万亿级参数的记忆表可低成本部署。 Engram 技术标志着大模型架构设计进入了一个新的里程碑。
2.2K21编辑于 2026-01-19
来自专栏算法一只狗
给大模型配一本“速查手册”：DeepSeek 的 Engram 到底解决了什么问题？
对于传统的transformers架构来说，模型看到这句话时，其实要经历一串“隐式重建”的过程：逐字读入「美国、总统、现在、是谁」在多层网络里慢慢组合出：这是一个国家相关实体、这是一个职位；然后把“美国总统整体的框架流程论文中已经画出来了~如果用一句话概括：MoE解决的是“算得更聪明”（条件计算），Engram解决的是“记得更便宜”（条件记忆）。两者是互补结构。关键发现：SparsityAllocation出现“U型规律”，MoE和Memory要配比论文中提出一个很有意思的实验设问：在固定总参数预算下，MoE专家参数与Engram记忆参数，怎么分配最好？ Engram的“门控（gating）”确实学会了：只在“这是一个稳定、固定的局部模式”时才强力介入，而不是对所有token都乱用记忆。目前DeepSeek在走极致化的“稀疏”路线：MoE：计算的稀疏化Engram：存储的稀疏化如果这条路跑通，未来可能出现一种很有代表性的架构形态：小而精的推理核心+可扩展、可更新的超大记忆库。
1K40编辑于 2026-01-16
来自专栏凯哥讲故事系列
凯哥丨 AI 进入存算解耦的新纪元
论文提出了一个叫 Engram 的条件记忆模块：把经典 N-gram 做成现代化的 O(1) 查表记忆外挂，用确定性哈希在巨大表里秒级定位向量，再通过门控把“记忆向量”注入 Transformer 主干 1）把 N-gram 从垃圾堆里捡回来，做成“可扩展的条件记忆” Engram 的思想很“复古”：N-gram。结果就是：高频、模板化、可结构化的知识：走 Engram/lookup 低频、长文本、强语义推理：继续走 RAG + 主干推理这会让企业知识系统的架构重新洗牌：从“全靠 RAG”走向“记忆层 + 检索层预测 5：“模型外挂市场”会崛起：记忆外挂、规则外挂、合规外挂 Engram 证明了外挂思路可行后，围绕“可插拔能力”的生态会爆发：行业知识、企业 SOP、合规规则、工具调用策略……都会以外挂形式被产品化这就是 Engram 的长期主义：它没有用更贵的算力去压缩问题，而是用更朴素的结构把问题拆开——让“计算”去做计算，让“记忆”去做记忆。
30210编辑于 2026-01-22
来自专栏ceshiren0001
DeepSeek 深夜发布 Engram：比 MoE 更节能的突破，V4 架构初露端倪
」从神经网络里拆出来的架构实验。二、Engram 在做什么？一句话：该查的，别算“Engram” 是神经科学中的术语，意为记忆痕迹。在这篇论文里，它被实现为一个可扩展、可学习、可条件触发的记忆模块。 MoE 的稀疏性，是：条件计算只激活少量专家网络Engram 的稀疏性，是：条件查找只命中极少量记忆条目两者解决的是不同问题。可以这样理解：模块在干什么Engram快速回忆“我以前见过什么”MoE / Transformer认真思考“现在该怎么推理”在架构上，Engram 被放在较早的层级，用于模式重构与事实补全；而深层网络但 DeepSeek 做的，是把它们重新放回现代 LLM 架构的正确位置。五、V4 会用吗？没人官宣，但信号已经很明显DeepSeek 并没有说 Engram 会直接进入 V4。
54110编辑于 2026-01-15
来自专栏大模型系列
不是更大，而是更聪明：DeepSeek-V4用“记忆+专家”双引擎颠覆大模型范式—压缩稀疏注意力、DSA、Lightning Indexer
其核心创新在于一套名为“双轴稀疏架构”的系统性设计，该架构由两大引擎驱动：“Engram条件记忆引擎”与“MoE混合专家计算引擎”。其根源在于，传统Transformer架构将“记忆”（存储事实知识）与“计算”（进行逻辑推理）混杂在同一套权重参数中。模型被迫用昂贵的、易错的计算过程去“模拟”对静态知识的检索。 DeepSeek-V4的“双引擎”架构正是对这一生物机制的工程化复现：Engram条件记忆引擎≈海马体：高效、无损地存储和检索静态知识。MoE混合专家计算引擎≈新皮层：动态、灵活地处理复杂的推理任务。第二章：第一引擎——Engram条件记忆：为大模型装上“海马体”2.1设计动机：为什么需要一个独立的记忆模块？在传统模型中，所有知识都内化于神经网络的权重之中。当用户询问“巴黎是哪个国家的首都？” 其“记忆+专家”双引擎架构，不仅是对现有技术瓶颈的巧妙破解，更是对未来通用人工智能（AGI）形态的一次深刻探索。
45130编辑于 2026-04-24
来自专栏大模型系列
万亿参数震撼发布：DeepSeek V4 MoE架构深度解析
3.2Engram（条件记忆）模块：根治“幻觉魔咒”这是DeepSeek团队于2026年初提出的革命性创新，旨在解决大模型“记不住硬核知识”的根本问题。工作流程：在推理时，模型首先通过其神经网络进行动态推理，同时并行地查询Engram记忆库。如果查询命中，就直接使用精确的事实；如果未命中，则依赖神经网络的泛化能力。一种新的稀疏维度：Engram被视为继MoE之后，大模型稀疏化的“新轴心”，为模型轻量化和持续学习提供了新路径。Engram的技术细节与创新Engram模块的设计灵感来源于人类大脑的记忆机制。研究发现，MoE与Engram之间存在一条“U形scalinglaw”，意味着未来需要在计算与静态记忆之间找到最优资源配比。这个思路可能成为稀疏架构的下一条主流路线。它通过将MoE的规模、Engram的记忆、mHC的稳定、DSA的效率四者有机结合，成功构建了一个既能“装得下”海量知识，又能“跑得快”且“用得起”的新一代大模型。
40830编辑于 2026-05-14
来自专栏程序员
智能体（Agent）的记忆架构：深入解析短期记忆与长期记忆
在人工智能领域，尤其是基于大语言模型（LLM）的智能体（Agent）系统中，记忆机制是实现持续、连贯和个性化交互的核心基石。记忆系统模拟了人类的认知结构，通常划分为短期记忆和长期记忆。第一章：短期记忆——智能体的工作记忆与意识流1.1定义与本质短期记忆是智能体用于处理当前任务或单次会话的临时信息存储区。注意力机制：短期记忆的有效性依赖于Transformer架构的核心——注意力机制。检索长期记忆：系统将当前查询与短期记忆的上下文结合，作为“检索键”，在长期记忆库中进行向量相似性搜索，找出相关记忆。结论与展望短期记忆和长期记忆是构成智能体认知架构的两大支柱。
2.3K11编辑于 2025-09-25
来自专栏大模型系列
解密DeepSeek-V4 预览版Engram 记忆模块、mHC 稳定训练与百万Token稀疏注意力的三大突破——百万Token上下文的智能压缩引擎
V4的三大技术突破，分别针对当前大模型面临的三大核心挑战：幻觉魔咒（HallucinationCurse）：事实性错误频发→Engram条件记忆。 2.2Engram的设计哲学：为大模型装上“海马体”Engram模块的设计灵感直接来源于人类大脑的海马体（Hippocampus），后者负责快速、精准地检索长期记忆中的事实性知识。 Engram旨在为大模型提供一个独立的、外部的、可即时访问的“活字典”，实现条件记忆（ConditionalMemory）。整体架构：这三大技术共同支撑起了V4的“双轴稀疏架构”——Engram代表“记忆”轴的稀疏（只检索相关知识），MoE代表“计算”轴的稀疏（只激活相关专家），而DSA则是让这两者能在超长上下文中高效协同的结论DeepSeek-V4的三大技术突破——Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力——共同构成了一场深刻的架构革命。
54220编辑于 2026-04-29
来自专栏AgenticAI
DeepSeek新模型MODEL1曝光！
DeepSeek在其成立一周年之际，曝光了一款名为MODEL1的全新架构模型。（V32）作为不同的模型架构出现关键技术突破统一回归512标准维度：优化了模型的核心参数配置首创"值向量位置感知"：在注意力机制上的重要创新引入Engram机制：条件记忆通过可扩展查找实现，解决 Transformer缺乏原生查表记忆的缺陷 DSA（DeepSeek Sparse Attention）机制：实现显存效率与推理精度的双重跨越内存优化技术代码差异主要体现在： KV缓存布局优化稀疏性处理改进 FP8解码优化技术架构对比特性 MODEL1 V3.2 架构类型全新架构现有架构硬件支持 SM90 + SM100 主要SM90 核心创新值向量位置感知 + Engram 传统MLA 内存优化 FP8 + 稀疏处理标准优化性能优势 MODEL1通过引入Engram机制，实现了： O(1)查表取向量：让模型直接获取知识而非逐层计算条件记忆机制：将20-25%参数用于记忆存储，效果最佳
66310编辑于 2026-01-22
来自专栏技术人生黄勇
春节前这波“偷袭”！DeepSeek 没官宣，但偷偷点了什么技能？
窗口只是表象，真正藏在更新里的，是mHC流形约束与Engram条件记忆两项底层架构落地。” 业内猜测，这次模型的更新，应该把之前论文提到的两项核心底层技术：mHC（流形约束超连接）与 Engram （条件记忆模块）也应用在新模型上了，只是没有公布出来。 3、推动架构革新：它代表了 AI 从“堆算力”向“懂数学”的转变，被视为 DeepSeek 架构升级的核心基石。 03 — 条件记忆模块（Engram）核心定义： Engram 是 DeepSeek 提出的“条件记忆”技术，核心目标是为大模型植入类似人类的“深层速记能力”。 Engram 关注的是‍“如何让模型想得更省力”‍，通过记忆检索解决算力浪费和显存限制。
36010编辑于 2026-03-11
来自专栏CreateAMind
记忆是什么？记忆印记进行湍流运动的临界值和沿途损失、为什么脑纵剖面几何形状像螺旋波？解释AD的15个现象
我们假设海马体存储记忆大脑架构为r，而这个r有可能受到自心脏频率和大脑架构的量子纠缠的作用[25]。只有角应变，第2层记忆架构就是，因为湍流扩散第n层记忆架构，对数螺旋线n-1阶导数就是记忆印记形状近似，只是记忆印记的图像质量进行了压缩，取w<1就是记忆传输到上游脑区逐渐减弱，w就是突触连接和范围权重下游第一皮层的记忆架构是，那上游第n皮层的记忆架构可能近似是的n-1阶导数。给出了记忆印记的公式并进行了n阶求导。研究基于湍流给出了记忆从下游脑区向上游脑区流动可能是架构变化率的传递，并且下游第一皮层的记忆架构是，那上游第n皮层的记忆架构可能近似是的n-1阶导数，我们的记忆可能是二维对数螺旋线，这样的n 研究最早给出了记忆架构的公式-对数螺旋线，在脑区间湍流运动只是能量损耗而记忆印记近似。
42650编辑于 2023-09-29
来自专栏大模型系列
打破幻觉与成本魔咒：DeepSeek-V4 如何用双轴稀疏架构重塑大模型未来？
V4并非简单的参数堆砌，而是通过一场深刻的架构革命——双轴稀疏架构，从根本上重构了大模型的“记忆”与“计算”范式。知识与推理混淆：传统Transformer架构将“记忆”（存储事实知识）和“计算”（进行逻辑推理）混杂在同一套参数中。模型被迫用昂贵的计算过程去“模拟”对静态知识的检索，效率低下且极易出错。这构成了其双轴稀疏架构的核心：第一轴：MoE-条件计算：负责动态的、复杂的逻辑推理和创造性任务。第二轴：Engram-条件记忆：负责高效、精准地存储和检索静态的、确定性的事实知识。 3.1Engram条件记忆模块：打造大模型的“活字典外挂”3.1.1设计动机传统模型将所有知识都编码在神经网络的权重中。通过将“记忆”与“计算”分离，V4巧妙地绕开了传统架构的根本性缺陷，在降低成本的同时，反而提升了模型的准确性和可靠性，特别是有效遏制了长期困扰行业的“幻觉”问题。
43220编辑于 2026-04-24
当所有人都在堆参数的时候，DeepSeek V4悄悄做了三件别人不敢做的事
真正值得深挖的是它在底层架构上动了三处手术：流形约束超连接（mHC）、Engram印迹条件记忆、DualPath推理加速。技术创新解决的核心问题作用阶段mHC流形约束超连接MoE超深网络训练不稳定训练阶段Engram印迹条件记忆长上下文中信息检索效率低架构层面DualPath推理框架KV-CacheIO瓶颈，推理成本高推理阶段下面我逐一展开 3.2Engram的设计哲学DeepSeek的Engram架构灵感来自神经科学中的"印迹"（Engram）概念——人脑并不是把所有记忆都平等存储的，而是根据信息的关联性建立条件性的检索路径。这不是简单的"把数字改大"——背后是Engram架构在支撑。没有条件记忆机制，100万token的KV-Cache在当前硬件条件下根本跑不起来。第三，原生多模态的加入。 GPT-5就是这个路线的最新产物——超大参数、超强能力，但训练和推理成本也是天文数字。路线二：架构创新。以DeepSeek为代表，通过架构层面的创新来提升效率。
94830编辑于 2026-04-18
来自专栏CreateAMind
为什么脑纵剖面几何形状像螺旋波-可能至少需要一个等角螺旋运动信息才能发生湍流传递
我们假设海马体存储记忆大脑架构为r，而这个r有可能受到自心脏频率和大脑架构的量子纠缠的作用[25]。只有角应变，第2层记忆架构就是，因为湍流扩散第n层记忆架构，对数螺旋线n-1阶导数就是记忆印记形状近似，只是记忆印记的图像质量进行了压缩，取b<1就是记忆传输到上游脑区逐渐减弱， b和突触连接和有效范围权重有关下游第一皮层的记忆架构是，那上游第n皮层的记忆架构可能近似是的n-1阶导数。给出了记忆印记的公式并进行了n阶求导。研究基于湍流给出了记忆从下游脑区向上游脑区流动可能是架构变化率的传递，并且下游第一皮层的记忆架构是，那上游第n皮层的记忆架构可能近似是的n-1阶导数，我们的记忆可能是二维对数螺旋线，这样的n 研究最早给出了记忆架构的公式-对数螺旋线，在脑区间湍流运动只是能量损耗而记忆印记近似。
46730编辑于 2023-10-10
DeepSeek V4全网猜测汇总：四大焦点浮出水面
焦点二：核心技术——全新架构+记忆模块，多方拆解代码细节 ● 技术层面：的猜测最为密集，核心围绕“MODEL1”架构与Engram记忆模块两大方向，均源自开发者对开源代码和论文的拆解分析。 FlashMLA作为DeepSeek独创工具，针对英伟达硬件做了深度优化，可在架构层面减少内存占用、提升计算效率。 ● 记忆模块：Engram记忆模块则因1月13日曝光的论文引发热议。科技思维报道称，V4在Codeforces编程评测中获得2441分，超过96.3%的人类程序员，算法优化准确率比GPT-5高出15%，错误修复效率是Claude的1.8倍，可处理数十万token上下文， ● 成本方面：Engram模块带来的降本效果成为核心话题。同时，“查算分离”架构让80%静态数据存储于内存，文本模型综合调用成本或下降40%-50%。
1.4K20编辑于 2026-01-30
来自专栏AI SPPECH
35：Multimodal Memory系统设计：短期记忆、长期记忆、结构化+Graph记忆架构
记忆架构的结合，构建高效的多模态记忆系统。核心技术架构 4.1 系统架构 4.2 核心组件 5. 核心技术架构 4.1 系统架构 4.2 核心组件组件功能作用数据预处理处理多模态输入数据标准化和特征提取短期记忆存储近期和临时信息快速访问和处理长期记忆存储长期和重要信息持久化存储和检索多模态融合融合不同模态的信息提供综合理解 5. 增强推理能力：基于记忆结构支持复杂推理高效更新机制：支持记忆的动态更新和维护多模态融合：实现不同模态信息的有效融合 12.2 建议技术选型：根据应用场景选择合适的记忆组件和工具架构设计：根据业务需求设计合理的记忆架构
31010编辑于 2026-04-05
来自专栏CreateAMind
脑记忆产生和巩固建模研究总结（3假设3发现3创新符合13篇脑科学实验和假设）
参考公式(2)和(4)，记忆巩固的公式（5）表达如下，给出了工作记忆和长期记忆的关系，最大的方向导数就是梯度。从海马体到皮层，它在大脑实现了从非经典力学到经典力学。 The hippocampal neurogenesis will decline throughout aging [17]; 5. PNN对深度学习和进化计算的创新： 1.PNN把RNN架构改造有点类似CNN，而算法有些类似ResNet，池化过程或层数计算有些类似突触有效范围的更新，PNN也有共享连接权重；前向计算和反向计算除了考虑共享连接权重 Cell Stem Cell. 2018 Apr 5;22(4):589-599.e5. doi: 10.1016/j.stem.2018.03.015. Engram cells retain memory under retrograde amnesia.
32620编辑于 2023-09-01
来自专栏大模型系列
解密 DeepSeek V4：双轴稀疏 MoE + Engram 记忆 + Muon 优化器，如何打造高效万亿模型？
2.4Engram记忆架构Engram记忆架构是DeepSeekV4在长上下文处理方面的另一项重要创新。该架构借鉴了神经科学中“记忆痕迹”（Engram）的概念，通过以下机制增强模型的记忆能力：记忆单元：在Transformer层之间插入专门的记忆单元，用于存储和检索长期依赖信息；记忆更新：采用可学习的更新规则 5.3.2智能体开发Agent框架：支持复杂的智能体开发，具备优秀的规划和执行能力；多工具集成：能够调用外部工具和API，扩展功能边界；长期记忆：通过Engram架构实现长期记忆和经验积累。避免专家偏斜问题；更强的记忆能力：增强Engram架构，实现更长期、更可靠的记忆存储。其创新的MoE架构、双轴稀疏设计、混合注意力机制、Engram记忆架构等技术突破，不仅解决了超大规模模型的效率问题，更在长上下文处理、推理性能、成本控制等方面实现了全面领先。
22220编辑于 2026-05-16

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

今天 AI 记忆系统又进了一步：Engram、Claude Code、EdgeClaw 正在把“长期记忆”做成工程能力

35倍推理加速，成本砍掉97%——DeepSeek V4要重写大模型游戏规则

迈向V4R2之路：揭秘DeepSeek Engram如何解放大模型算力，激发高级智能

给大模型配一本“速查手册”：DeepSeek 的 Engram 到底解决了什么问题？

凯哥丨 AI 进入存算解耦的新纪元

DeepSeek 深夜发布 Engram：比 MoE 更节能的突破，V4 架构初露端倪

不是更大，而是更聪明：DeepSeek-V4用“记忆+专家”双引擎颠覆大模型范式—压缩稀疏注意力、DSA、Lightning Indexer

万亿参数震撼发布：DeepSeek V4 MoE架构深度解析

智能体（Agent）的记忆架构：深入解析短期记忆与长期记忆

解密DeepSeek-V4 预览版Engram 记忆模块、mHC 稳定训练与百万Token稀疏注意力的三大突破——百万Token上下文的智能压缩引擎

DeepSeek新模型MODEL1曝光！

春节前这波“偷袭”！DeepSeek 没官宣，但偷偷点了什么技能？

记忆是什么？记忆印记进行湍流运动的临界值和沿途损失、为什么脑纵剖面几何形状像螺旋波？解释AD的15个现象

打破幻觉与成本魔咒：DeepSeek-V4 如何用双轴稀疏架构重塑大模型未来？

当所有人都在堆参数的时候，DeepSeek V4悄悄做了三件别人不敢做的事

为什么脑纵剖面几何形状像螺旋波-可能至少需要一个等角螺旋运动信息才能发生湍流传递

DeepSeek V4全网猜测汇总：四大焦点浮出水面

35：Multimodal Memory系统设计：短期记忆、长期记忆、结构化+Graph记忆架构

脑记忆产生和巩固建模研究总结（3假设3发现3创新符合13篇脑科学实验和假设）

解密 DeepSeek V4：双轴稀疏 MoE + Engram 记忆 + Muon 优化器，如何打造高效万亿模型？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

今天 AI 记忆系统又进了一步：Engram、Claude Code、EdgeClaw 正在把“长期记忆”做成工程能力

35倍推理加速，成本砍掉97%——DeepSeek V4要重写大模型游戏规则

迈向V4R2之路：揭秘DeepSeek Engram如何解放大模型算力，激发高级智能

给大模型配一本“速查手册”：DeepSeek 的 Engram 到底解决了什么问题？

凯哥 丨 AI 进入存算解耦的新纪元

DeepSeek 深夜发布 Engram：比 MoE 更节能的突破，V4 架构初露端倪

不是更大，而是更聪明：DeepSeek-V4用“记忆+专家”双引擎颠覆大模型范式—压缩稀疏注意力、DSA、Lightning Indexer

万亿参数震撼发布：DeepSeek V4 MoE架构深度解析

智能体（Agent）的记忆架构：深入解析短期记忆与长期记忆

解密DeepSeek-V4 预览版Engram 记忆模块、mHC 稳定训练与百万Token稀疏注意力的三大突破——百万Token上下文的智能压缩引擎

DeepSeek新模型MODEL1曝光！

春节前这波“偷袭”！DeepSeek 没官宣，但偷偷点了什么技能？

记忆是什么？记忆印记进行湍流运动的临界值和沿途损失、为什么脑纵剖面几何形状像螺旋波？解释AD的15个现象

打破幻觉与成本魔咒：DeepSeek-V4 如何用双轴稀疏架构重塑大模型未来？

当所有人都在堆参数的时候，DeepSeek V4悄悄做了三件别人不敢做的事

为什么脑纵剖面几何形状像螺旋波-可能至少需要一个等角螺旋运动信息才能发生湍流传递

DeepSeek V4全网猜测汇总：四大焦点浮出水面

35：Multimodal Memory系统设计：短期记忆、长期记忆、结构化+Graph记忆架构

脑记忆产生和巩固建模研究总结（3假设3发现3创新符合13篇脑科学实验和假设）

解密 DeepSeek V4：双轴稀疏 MoE + Engram 记忆 + Muon 优化器，如何打造高效万亿模型？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

凯哥丨 AI 进入存算解耦的新纪元