首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏DeepHub IMBA

    DeepSeek 开年王炸:mHC 架构用流形约束重构 ResNet 残差连接

    这篇 mHC 就是来填这个坑的,咱们顺着逻辑拆解一下。 这就引出了 mHC 的核心:流形约束(Manifold Constraint)。 DeepSeek 在数学上证明了,如果把这些连接的权重矩阵强制投影到一个特定的流形空间里就能在保留 HC 那种高带宽、多通路优势的同时,还把 Identity Mapping 的属性给找补回来。 这里的“流形”具体由两个关键的数学性质构成: 第一是 谱范数约束(Spectral Norm Constraint),他们强制要求连接矩阵的谱范数 ∥W∥2≤1。 并且论文里面包含了很强的理论推导,对于信号传播(Signal Propagation)的分析非常扎实,直接指出了为什么之前的架构在深层会遇到瓶颈,而 mHC 是怎么通过约束奇异值分布来解决这个问题的。 mHC 的出现不仅修复了 Hyper-Connections 的缺陷,更重要的是它将深度学习架构设计的视角从单纯的“连接图”提升到了“参数流形”的高度。

    33610编辑于 2026-01-12
  • 来自专栏猫头虎AI技术分享

    DeepSeek 重磅新作:梁文锋领衔发布 mHC 架构,攻克大模型训练不稳定性难题

    DeepSeek 重磅新作:梁文锋领衔发布 mHC 架构,攻克大模型训练不稳定性难题摘要:2026年1月1日,DeepSeek 发布最新论文,提出流形约束连接架构,旨在解决大规模模型训练中的不稳定性问题 核心突破:从连接流形约束论文摘要指出,近年来以连接为代表的研究通过拓宽残差流宽度和多样化连接模式,拓展了传统的残差连接范式。 为了解决这些问题,DeepSeek 提出了 流形约束连接mHC)。这是一种通用框架,能够将 HC 的残差连接空间投影到特定流形上。其核心价值在于:恢复恒等映射特性:确保信号在深层网络中有效传递。 图为残差连接范式的示意图。本图对比了 标准残差连接连接 以及 流形约束连接 的结构设计。 与无约束的 HC 不同,mHC 通过将连接矩阵投影到一个约束流形上,专注于优化残差连接空间,从而确保训练的稳定性。

    1.5K10编辑于 2026-01-02
  • mHC 深度解读:当流形几何遇上残差网络

    mHC实验观察到HC训练在约 12k 步时出现 loss 突增,伴随梯度范数的剧烈震荡。虽然训练最终恢复,但这种不稳定性限制了 HC 在更大规模上的应用。 流形约束:数学之美 什么是流形? 扩展思考 流形约束的一般模式 mHC 体现了一个通用的设计模式: 当无约束优化导致不稳定时,将参数约束到一个"良性"流形上。 这也是为什么 CV 不太需要显式的流形约束,而 LLM 需要。 小结 mHC 是一篇兼具理论优雅和工程扎实的工作。它清晰地定义了问题,HC的多流设计破坏了残差连接的恒等映射性质导致信号爆炸,并用双随机矩阵的流形约束给出了数学上简洁的解决方案。 从更广的视角看,mHC 代表了一种设计范式:用几何/代数约束来驯服自由度过高的参数空间。双随机流形之于残差混合矩阵,正如正交约束之于 RNN 权重、低秩约束之于适配器参数。

    41310编辑于 2026-01-20
  • 来自专栏亨利笔记

    DeepSeek mHC 重构神经网络底层逻辑,V4R2 渐行渐近

    mHC 开启神经网络架构新篇章! 2025年12月31日,当全球都沉浸在跨年的热闹氛围里时,DeepSeek 依旧是“每逢佳节倍出新”的节奏,悄悄放了个大招:mHC流形约束连接)架构的技术论文。 但连接是把 “双刃剑”,问题核心在无约束的映射矩阵 —— 如同无交通指挥的立交桥,信号易被无限放大或凭空消失。 三、mHC连接戴上“精准的数学镣铐” mHC的全称是“流形约束连接”(英文:Manifold-Constrained Hyper-Connections),它的核心思路特别巧妙:不抛弃连接“多车道 如果把连接的无约束立交桥比作“混乱的十字路口”,那双随机矩阵就像“有完美调度的环岛”,能带来三个关键保障,从根源上解决连接的稳定性问题: 第一是“能量守恒”(专业说法叫“范数保持”)。 如果说何恺明的残差连接开启了深度学习的“深度时代”,那么mHC很可能会开启“流形时代”。

    96710编辑于 2026-01-07
  • 来自专栏DeepHub IMBA

    从贝叶斯视角解读Transformer的内部几何:mHC流形约束与大模型训练稳定性

    流形约束连接(Manifold-Constrained Hyper-Connections,简称mHC)正是在这个背景下提出的。 标准残差连接通过增量式更新维持信念状态的稳定;无约束连接则引入任意的跨层混合,可能导致信念语义失真;mHC通过强制凸约束恢复稳定性,保护贝叶斯流形不受破坏。 连接(Hyper-Connections, HC)对残差进行了泛化,拓宽残差流并在层与流之间引入可学习的混合矩阵[3]。表达能力确实增强了,但固定的恒等路径也因此消失。 流形约束连接mHC)的设计思路 将残差几何投影到双随机矩阵空间 mHC的核心思想是把残差混合矩阵投影到Birkhoff多面体——即双随机矩阵的空间[3]。 mHC在保留宽残差流灵活性的同时,重新引入了标准残差连接原本提供的架构保障。 规模化的几何视角 从贝叶斯几何角度审视,mHC的价值不仅在于稳定训练,它保护的是信念更新的内部语义。

    32310编辑于 2026-01-12
  • DeepSeek mHC 深度解读:当流形几何遇上残差网络

    添加图片注释,不超过 140 字(可选)流形约束:数学之美什么是流形?在理解 mHC 的解决方案之前,我们需要理解”流形”这个概念。流形是”局部像欧氏空间”的空间。 ,流形更接近“结构化的可行域/约束集合”。 扩展思考流形约束的一般模式mHC 体现了一个通用的设计模式:当无约束优化导致不稳定时,将参数约束到一个”良性”流形上。 小结mHC 是一篇兼具理论优雅和工程扎实的工作。它清晰地定义了问题,HC的多流设计破坏了残差连接的恒等映射性质导致信号爆炸,并用双随机矩阵的流形约束给出了数学上简洁的解决方案。 从更广的视角看,mHC 代表了一种设计范式:用几何/代数约束来驯服自由度过高的参数空间。双随机流形之于残差混合矩阵,正如正交约束之于 RNN 权重、低秩约束之于适配器参数。

    76930编辑于 2026-01-05
  • Deepseek mHC 架构理解

    Residuals(残差网络)2015年何恺明、孙剑、任少卿、张祥雨是微软亚洲研究院HC(连接)2024年9月字节跳动团队部分字节跳动mHC流形约束连接)2026年1月DeepSeek团队(梁文锋署名 HC(连接):由字节跳动团队提出,通过扩展残差流宽度提升模型性能,但存在训练不稳定性问题。 mHC流形约束连接):由DeepSeek团队提出,通过将残差连接矩阵投影到双随机矩阵流形上,解决了HC的训练不稳定性问题,在保持性能的同时确保训练稳定。 )↑3、管道-过滤器视角看mHC架构mHC在传统单流残差连接基础上,引入了多流并行管道设计:1.管道宽度扩展传统Transformer:单一残差管道(C维)mHC架构:n个并行残差管道(n×C维),形成 )信息流动顺序、单向条件路由、稀疏激活并行、多向交互稳定性机制残差连接+层归一化专家容量限制+负载平衡流形约束(双随机矩阵)1.稳定性保障通过双随机矩阵约束(Birkhoff多面体投影),确保多流管道的信号传播稳定避免了

    63740编辑于 2026-01-05
  • 来自专栏大模型系列

    解密DeepSeek-V4 预览版Engram 记忆模块、mHC 稳定训练与百万Token稀疏注意力的三大突破——百万Token上下文的智能压缩引擎

    规模魔咒(ScaleCurse):万亿参数训练不稳定→mHC流形约束连接。上下文瓶颈(ContextBottleneck):长文本处理成本高昂→DSA稀疏注意力。 第三章:第二大突破——mHC流形约束连接:稳定万亿参数的“顶级监理”3.1问题背景:“规模魔咒”下的训练困境随着模型参数膨胀至万亿级别(V4-Pro总参数约1.6T),传统的残差连接(ResidualConnection 3.2mHC的设计哲学:用数学约束保障信号稳定mHC(Manifold-ConstrainedHyper-Connections,流形约束连接)技术,源自DeepSeek在2026年初发布的论文《mHC :流形约束连接》。 结论DeepSeek-V4的三大技术突破——Engram条件记忆、mHC流形约束连接和DSA稀疏注意力——共同构成了一场深刻的架构革命。

    27620编辑于 2026-04-24
  • 来自专栏技术人生黄勇

    春节前这波“偷袭”!DeepSeek 没官宣,但偷偷点了什么技能?

    窗口只是表象,真正藏在更新里的,是mHC流形约束与Engram条件记忆两项底层架构落地。” 业内猜测,这次模型的更新,应该把之前论文提到的两项核心底层技术:mHC流形约束连接)与 Engram (条件记忆模块)也应用在新模型上了,只是没有公布出来。 02 — 流行约束连接mHc) 核心定义: mHC(Manifold-Constrained Hyper-Connections)是 DeepSeek 提出的“流形约束连接”技术,旨在解决传统残差网络 2、流形约束: 引入 Sinkhorn-Knopp 算法,将连接矩阵约束在“双随机矩阵”的流形上。这样可以强制网络遵循某种“守恒定律”,防止信号在深层网络中无限放大或衰减。 3、解决信号爆炸: 传统连接(HC)在大模型(如 27B 参数)上会导致放大倍数高达 3000 倍,导致训练崩溃。mHC 通过数学约束将放大倍数控制在 1.6 左右,确保训练全程稳定。

    30210编辑于 2026-03-11
  • 当所有人都在堆参数的时候,DeepSeek V4悄悄做了三件别人不敢做的事

    真正值得深挖的是它在底层架构上动了三处手术:流形约束连接mHC)、Engram印迹条件记忆、DualPath推理加速。 技术创新解决的核心问题作用阶段mHC流形约束连接MoE深网络训练不稳定训练阶段Engram印迹条件记忆长上下文中信息检索效率低架构层面DualPath推理框架KV-CacheIO瓶颈,推理成本高推理阶段下面我逐一展开 二、mHC流形约束连接:让深MoE网络不再"发疯"2.1问题从何而来先说背景。 ):"""mHC流形约束连接-简化实现"""def__init__(self,num_layers:int,hidden_dim:int):super(). 传统残差连接深MoE网络中容易出现梯度消失和信号不稳定;无约束连接虽然增强了信息流动,但信号放大效应过于剧烈;mHC通过流形约束找到了一个平衡点——既保留了连接的信息增强效果,又把放大效应控制在合理范围内

    77730编辑于 2026-04-18
  • 来自专栏机器之心

    租了8张H100,他成功复现了DeepSeek的mHC,结果比官方报告更炸裂

    简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了连接 mHC 保持平稳,维持在 1.0。 修复:约束流形 DeepSeek 的修复方案很干净:将混合矩阵约束为双重随机(doubly stochastic)。 十年后,相反的问题出现了:连接带来的信号爆炸。恒等映射通过被动的方式解决了第一个问题。mHC 通过强制守恒解决了第二个问题。 每一个残差连接都是一种守恒定律。mHC 强制执行了它。 实验 这篇博客记录的是作者在三种架构上进行的 18 次实验,包括: Residual:标准的残差结构,即 x + F (x) 作为基线; HC:采用无约束混合矩阵的连接(Hyper-Connections ); mHC:采用 Sinkhorn 投影的流形连接(Manifold Hyper-Connections)。

    26010编辑于 2026-01-22
  • 来自专栏大模型系列

    打破幻觉与成本魔咒:DeepSeek-V4 如何用双轴稀疏架构重塑大模型未来?

    3.2mHC流形约束连接:稳定万亿参数的“顶级监理”3.2.1设计动机随着模型规模膨胀至万亿级别,传统的残差连接(ResidualConnection)在深层网络中会导致梯度爆炸或消失,使得训练过程极不稳定 3.2.2技术原理mHC(Manifold-ConstrainedHyper-Connections)技术,源自DeepSeek的另一篇论文《mHC:流形约束连接》,其核心思想是对层与层之间的连接矩阵施加严格的数学约束 流形约束mHC将残差映射矩阵通过Sinkhorn-Knopp算法投影到双随机矩阵流形(DoublyStochasticMatrixManifold)上。 在这个流形上,矩阵的谱范数(SpectralNorm)被严格约束在1以内。信号保真:这种约束确保了信息在穿越数百甚至上千层网络时,其强度和方向能够保持稳定,不会被过度放大或衰减。 连接mHC还优化了MoE架构中不同专家之间的通信路径,仅保留高关联度的连接,减少了通信开销。

    23620编辑于 2026-04-24
  • 35倍推理加速,成本砍掉97%——DeepSeek V4要重写大模型游戏规则

    这篇文章会带你从V3的技术遗产出发,逐层拆解V4的三张核心技术底牌——mHC流形约束连接、Engram条件记忆架构、以及新一代MoE稀疏计算,看看DeepSeek凭什么用更少的芯片做到了更猛的性能。 :修复Transformer十年前的"设计债务"mHC的全称是Manifold-ConstrainedHyper-Connections(流形约束连接)。 mHC的思路完全不同:它不去修补残差连接的毛病,而是用流形约束的方式重新定义了层与层之间的信息传递。 展开代码语言:PythonAI代码解释importtorchimporttorch.nnasnnclassManifoldConstrainedHC(nn.Module):"""mHC流形约束连接模块 E[问题:训练loss震荡]F[mHC流形约束连接]-->G[投影到双随机矩阵流形]G-->H[信息传递能量守恒]H-->I[梯度流稳定]H-->J[信息保真度提升]H-->K[支持更深更稳定的训练]

    3.4K120编辑于 2026-04-15
  • 来自专栏LLM

    从ResNet到mHC:DeepSeek重构残差连接,额外开销仅6.7%,附复现代码

    流形约束连接)的新架构。 mHC将传统Transformer的单一残差流扩展为多流并行架构,通过引入严谨的几何流形约束,成功解决了HC在大规模训练中的数值不稳定和信号爆炸问题。 连接(Hyper-Connections,HC)论文标题:HYPER-CONNECTIONS论文地址:https://arxiv.org/pdf/2409.19606残差连接的问题标准的残差连接强制要求输入信号与经过变换的信号以 mHC的诞生面对HC的问题,DeepSeek提出了mHC,即Manifold-ConstrainedHyper-Connections(流形约束连接),其核心思路为:将不可控的HresH^{res}Hres Birkhoff多胞体流形论文标题中的Manifold(流形)指的就是由所有双随机矩阵构成的几何空间,被称为Birkhoff多胞体(BirkhoffPolytope),记为Bn\mathcal{B}_nBn​

    20010编辑于 2026-02-24
  • 来自专栏AI早知道

    大模型榜单周报(2026-01-04)

    此外,DeepSeek提出了名为「mHC流形约束连接)」的新架构,能够在增加极少训练时间开销的情况下实现显著性能提升。2. MAI-UI,提供从2B端侧小模型到235B云端大模型四个尺寸版本,覆盖全场景部署需求,论文地址:https://arxiv.org/abs/2512.22047DeepSeek于12月31日提出名为「mHC流形约束连接)」的新架构,在27B参数模型上,仅增加约6.7%的训练时间开销,即可实现显著性能提升,论文地址:https://arxiv.org/abs/2512.248803.

    3K00编辑于 2026-01-07
  • 来自专栏大模型系列

    0.2元/百万Token 的万亿AI:DeepSeek-V4 开源,开启超长上下文普惠时代——DeepSeek-V4-Pro|DeepSeek-V4-Flash

    该架构包含三大核心技术支柱:Engram条件记忆、mHC流形约束连接和DSA稀疏注意力。它们共同作用,实现了“记忆”与“计算”的分离,从根本上解决了传统模型的效率瓶颈。 2.2mHC流形约束连接:稳定万亿参数的“定海神针”2.2.1问题背景:规模魔咒随着模型参数膨胀至万亿级别(V4-Pro总参数约1.6T),传统的残差连接会导致深层网络中的梯度爆炸或消失,使得训练过程极不稳定 2.2.2技术原理:数学上的优雅约束mHC(Manifold-ConstrainedHyper-Connections)技术,源自DeepSeek的另一篇核心论文《mHC:流形约束连接》。 流形投影:mHC将层与层之间的残差映射矩阵,通过Sinkhorn-Knopp算法,投影到双随机矩阵流形(DoublyStochasticMatrixManifold)上。 优化专家通信:在MoE架构中,mHC还优化了不同专家子网络之间的通信路径,仅保留高关联度的连接,减少了不必要的通信开销。

    37540编辑于 2026-04-24
  • 来自专栏算法一只狗

    当残差不再是直线:DeepSeek 的 mHC 如何把 Hyper-Connections 拉回稳定区

    :把()投影到一个“守恒”的流形上,让它重新具备identity的稳定性mHC的改进的核心点在于:把每层的residualmixing矩阵(H^{res}_l)约束为“双随机矩阵(doublystochastic )”,也就是落在Birkhoffpolytope(双随机矩阵集合/置换矩阵凸包)这个流形/多面体上DS研究团队通过实验观察到,由于缺乏有效约束机制,HC系统在训练过程中会出现控制参数无序波动的现象。 为解决这一问题,研究团队引入了Birkhoffpolytope这一特定流形结构作为优化空间。 还加了非负性约束,避免正负系数叠加造成信号抵消(也可理解为一种简单的流形/可行域约束)HC到底是“哪里不稳”? 写在最后如果用一句话来概括mHC这篇论文的价值,那就是:它不是在“发明一个更强的残差”,而是在回答,当我们开始动残差这个trick的时候,什么是绝对不能被破坏的底层约束

    48720编辑于 2026-01-07
  • 抛弃CUDA生态,万亿参数全栈国产化——拆解DeepSeek V4的「飞行换引擎」

    这篇文章会拆解DeepSeekV4的核心架构创新——MegaMoE、mHC流形约束连接、Engram条件记忆——以及从CUDA到CANN的迁移工程到底难在哪。 DeepSeek团队为此提出了mHC(Manifold-ConstrainedHyperConnection,流形约束连接)。mHC的核心思路是在模型的层间连接上做文章。 (self.norm(x))#简单的加法跳连mHC则引入了可学习的连接矩阵,同时约束参数在流形空间上,防止训练发散:展开代码语言:PythonAI代码解释#mHC流形约束连接(简化实现)classManifoldConstrainedHyperConnection num_layers)*0.5)self.beta=nn.Parameter(torch.ones(num_layers)*0.5)defforward(self,x,layer_output,layer_idx):#流形约束 和beta参数动态控制信号流动比例,并通过流形投影约束防止数值发散。

    837130编辑于 2026-04-24
  • 每周AI论文速递(251229-260102)

    mHC: Manifold-Constrained Hyper-Connections [mHC: 流形约束连接](https://arxiv.org/abs/2512.24880) 近来,以连接 (HC) 为代表的研究,通过扩展残差流宽度并多样化连接模式,对过去十年间确立的、普遍存在的残差连接范式进行了拓展。 为应对这些挑战,我们提出了流形约束连接 (mHC)。这是一个通用框架,它将 HC 的残差连接空间投影到特定流形上,以恢复恒等映射特性,同时融合了严格的基础设施优化以确保效率。 实证实验表明,mHC 能有效进行大规模训练,带来切实的性能提升与卓越的可扩展性。 在我们的方法中,记忆被表示为一个超图,其边对应不同的记忆单元,从而能够在记忆内部逐步形成高阶交互。

    21210编辑于 2026-01-05
  • 来自专栏算法一只狗

    DeepSeek-V4 传闻背后:预训练、Agent 化与稳定性的三重博弈

    稀疏注意力的思路在很多新一代Transformer变体中都在被探索:即不是所有token间都做全连接的self-attention,而是选一些关键token或局部连接,从而减少计算复杂度。 mHC的改进的核心点在于:把每层的residualmixing矩阵(H^{res}_l)约束为“双随机矩阵(doublystochastic)”,也就是落在Birkhoffpolytope(双随机矩阵集合 /置换矩阵凸包)这个流形/多面体上DS研究团队通过实验观察到,由于缺乏有效约束机制,HC系统在训练过程中会出现控制参数无序波动的现象。 为解决这一问题,研究团队引入了Birkhoffpolytope这一特定流形结构作为优化空间。 还加了非负性约束,避免正负系数叠加造成信号抵消(也可理解为一种简单的流形/可行域约束)HC到底是“哪里不稳”?

    2.8K20编辑于 2026-01-13
领券