MoE(Mixture of Experts,混合专家模型)是一种通过稀疏激活机制提升模型容量与计算效率的神经网络架构。其核心思想是条件计算,通过门控网络为每个输入token动态选择最相关的少数专家进行计算,在保持大规模参数容量的同时大幅降低推理成本。研究表明,在路由优化、推理加速、专家专业化等方面取得了显著进展。腾讯混元系列(混元Large、混元Turbo、Hy3 preview)是MoE架构在实际大模型中的典型应用,通过共享专家、路由专家、随机补偿路由等策略,在参数效率、推理速度、长文本处理等方面展现出优势。
MoE架构通过门控网络(Gating Network)为每个输入token动态选择最相关的少数专家进行计算,而非激活整个模型的所有参数。这种机制使得模型在保持大规模参数容量的同时,只需计算其中一小部分参数,从而大幅降低推理成本。
研究表明MoE路由的本质。STAR研究提出将MoE路由重新定义为结构感知的子空间学习问题,通过广义Hebbian算法(GHA)跟踪输入数据的主导子空间,使路由决策与输入结构对齐,从而实现稳定的专家专业化。
与传统稠密模型相比,MoE通过稀疏激活实现参数效率高、推理成本低、专业化分工等优势。Super Experts研究发现,在MoE大语言模型中存在极少数对模型性能至关重要的"超级专家"(Super Experts),这些专家尽管数量极少,但剪枝它们会导致模型性能急剧下降。
最新研究为MoE核心思想提供了新的视角。STAR研究提出将MoE路由重新定义为结构感知的子空间学习;Super Experts发现揭示了极少数超级专家对模型性能的决定性作用;字节跳动ERC loss提出了专家-路由器耦合损失,通过让路由器和专家建立更紧密的联系,确保路由器能够准确理解每个专家的能力特点。
专家网络是MoE架构中的专业化子网络,每个专家负责处理特定类型的输入或任务。Super Experts研究发现,在MoE大语言模型中存在极少数极其重要的专家,它们表现出罕见但极端的激活异常值,在decoder层间的隐藏状态中产生巨大激活。
腾讯混元Large的专家层由一个共享专家和16个路由专家组成:共享专家负责处理所有token所需的通用知识和能力,而16个路由专家则根据动态路由机制,为每个token激活最相关的特定领域专家,实现通用能力与专业能力的分离与协同。
超级专家的分布是模型特定的、与数据无关的,并且不受后训练过程的影响。超级专家是Transformer中系统性异常值机制的主要来源,压缩它们会严重破坏这一机制,最终导致注意力沉没(attention sinks)的崩溃。
门控网络负责为每个输入token选择最相关的Top-K个专家。研究表明门控网络优化方面取得了显著进展。
STAR路由通过结构感知的子空间学习,将路由决策与输入数据的结构对齐,提高路由稳定性。Expert-Router耦合损失(ERC loss,字节跳动)通过让路由器和专家建立更紧密的联系,确保路由器能够准确理解每个专家的能力特点。
MP-MoE的动态集成剪枝从集成剪枝角度将MoE路由看作专家子集选择问题,在选择高置信专家的同时显式鼓励专家之间的多样性,打破"回音室"效应。
输出组合机制负责将选中的专家输出进行加权组合。Slicing and Dicing研究通过对超过2,000次预训练实验的系统研究,发现性能随着总MoE参数单调提升,即使在极端激活比例(如128)下也是如此;最优专家尺寸几乎与总参数数量无关,仅取决于活跃参数数量。
MP-MoE通过Mahalanobis距离度量专家之间的多样性,在路由选择时同时考虑专家的置信度和多样性,避免多个专家学习相似模式。
SonicMoE由Mamba作者团队提出,针对高粒度MoE训练加速,解决MoE训练过程中的通信瓶颈。ProMoE由复旦大学&阿里通义万相提出,解决DiT(Diffusion Transformer)MoE的scaling问题。
Slicing and Dicing研究通过对超过2,000次预训练实验(模型规模高达6.6B总参数)的系统分析发现:在所有活跃参数规模下,性能随着总MoE参数的增加而持续提升,即使在极端活跃专家激活比例(如128)下也是如此;最优专家尺寸几乎与总参数数量无关,仅取决于活跃参数预算,这简化了MoE架构的设计。
腾讯混元Large采用389B总参数、52B激活参数的MoE架构,是这一参数效率优势的典型体现:在总参数规模巨大的情况下,每次推理只激活约13.4%的参数,实现了参数容量与推理成本的有效平衡。
Super Experts研究发现:在MoE大语言模型中,极少数专家(超级专家)对模型性能的影响远大于其他专家;这一发现表明,未来的MoE架构设计可以更加注重识别和优化这些超级专家,从而进一步提高参数效率。
STAR研究提出:通过使路由决策与输入数据结构对齐,实现更稳定的专家专业化,从而提高参数利用效率;可选的测试时子空间更新进一步增强了路由鲁棒性和泛化能力,特别是在输入分布偏移的情况下。
MoDES提出首个面向MoE多模态大模型的训练免调专家跳过框架:通过全局调制的局部门控(GMLG)和双模态阈值(DMT)机制,自适应跳过冗余专家;在跳过88%专家时仍保留97%+原始性能;实现2.16× prefill加速。
ExpertFlow提出专为MoE推理设计的运行时系统:利用运行时统计信息(如传输带宽、参数维度、模型反馈信号)动态调整专家激活的预测窗口长度;采用混合式跨层预测方案,融合门控前信息(pregating)与中间计算状态,提前预判未来所需的专家;将模型停顿时间降低至基线的不足0.1%。
SonicMoE由普林斯顿大学团队提出:针对高粒度MoE训练过程中的通信瓶颈,提出完整解决方案,使训练速度翻倍。
腾讯混元Turbo采用分层异构MoE架构,通过训练框架AngelPTM采用大BatchSize训练、FP8低精度训练、梯度通信与MoE通信计算优化等策略,将千卡集群通信时间缩短至行业平均水平的一半,显著提升训练与推理效率。
Slicing and Dicing研究表明:专家数量和粒度是关键,在其他设计选择(如共享专家、异构专家、负载均衡机制)影响相对较小的情况下,专家数量和粒度对性能的影响占主导地位;专注于专家数量和粒度,其他选择对最终质量的影响最小,这简化了MoE架构的扩展设计。
MoDES展示了MoE在多模态大模型中的可扩展性:通过双模态阈值(DMT)机制,分别处理文本token和视觉token的不同特性,实现自适应的专家跳过;利用文本token与视觉token在FFN中更新幅度的显著差异(视觉token与FFN权重更正交),实现更高的冗余度识别。
腾讯混元Turbo S采用大规模混合Mamba-MoE架构,融合Mamba架构处理长序列的高效性与Transformer架构的上下文理解能力,在总参数量560B、激活参数量56B的情况下,兼顾长序列处理效率与模型表达能力。
MoEMeta提出:通过MoE元学习框架,将全局共享知识与任务特定上下文分离,实现快速任务适应;MoE模型学习全局共享的关系原型,增强泛化能力。
Super Experts研究发现:开发了用于快速准确识别超级专家的自动化工具;通过识别超级专家,可以指导更有效的模型压缩策略,在保持性能的同时降低模型尺寸。
字节跳动ERC loss提出:通过让路由器更好地理解每个专家的能力特点,提高路由准确性;在多个基准测试中显著提升大语言模型性能。
STAR提出:将路由定义为子空间学习问题,提高路由稳定性;通过测试时子空间更新,增强模型在输入分布偏移情况下的鲁棒性。
DeepSeekMoE采用64个路由专家,每层计算激活6个专家。研究表明,MoE Lens研究发现,尽管DeepSeekMoE有64个路由专家,但模型主要依赖于少数专业化专家,top-weighted专家的输出接近完整集成预测。
Qwen3-30B-A3B包含6,144个专家,其中仅有极少数(3个)是超级专家。Super Experts研究表明,剪枝这3个超级专家会导致模型生成重复且无信息的输出。
Qwen3-VL-MoE-30B采用MoE架构的多模态大模型。MoDES专门针对此类模型提出专家跳过框架,在跳过88%专家时仍保持97%+性能。
腾讯混元是腾讯自研的大语言模型系列,广泛采用MoE架构,在参数规模、推理效率、长文本处理等方面取得显著进展。
混元Large总参数量389B,激活参数量52B,上下文长度高达256K。专家层由一个共享专家和16个路由专家组成,共享专家负责处理所有token所需的通用知识,路由专家根据动态路由机制为每个token激活最相关的特定领域专家。在路由策略上,混元Large在传统Top-K路由基础上进一步提出随机补偿路由方式,将因专家满负载原本会丢弃的token随机路由到其他仍有负载冗余的专家,提升训练稳定性。
混元Turbo总参数量560B,激活参数量56B,采用分层异构MoE架构,并引入自适应长短思维链(CoT)机制。2025年推出的混元Turbo S进一步融合Mamba架构处理长序列的高效性与Transformer的上下文理解能力,千卡集群通信时间缩短至行业平均水平的一半。
Hy3 preview于2026年4月发布,采用295B/21B激活的MoE架构,原生支持256K上下文,支持深度思考(交错式思考)、Function Calling、Cache缓存等能力。
MoEMeta提出:通过MoE元学习框架,在仅有少量训练样本的情况下进行知识图谱关系推理;平衡全局泛化(通过全局共享原型)和局部适应性(通过任务特定上下文)。
Slicing and Dicing表明:在大数据分析任务中,MoE可以通过增加总参数来持续提升性能,而无需按比例增加计算成本;专注于专家数量和粒度,可以简化大数据分析模型的架构设计。
Super Experts研究发现:超级专家是Transformer中系统性异常值机制的主要来源;压缩超级专家会严重破坏这一机制,最终导致注意力沉没(attention sinks)的崩溃;这一发现揭示了MoE与注意力机制之间的深层联系,为理解MoE大语言模型的内在动态提供了新视角。
STAR提出:通过结构感知的子空间学习,STAR不仅优化了路由决策,还可能间接影响了注意力机制的计算;未来的研究可能会进一步探索路由决策与注意力机制之间的协同优化。
MP-MoE提出:将MoE路由看作专家子集选择问题,在选择高置信专家的同时显式鼓励专家之间的多样性;使用Mahalanobis距离度量专家之间的多样性,避免"回音室"效应。
STAR提出:通过广义Hebbian算法(GHA)跟踪输入数据的主导子空间,使路由决策与输入结构对齐;可选的测试时子空间更新进一步增强路由鲁棒性。
MoDES提出:通过全局信息调制每层的门控决策(全局调制局部门控,GMLG);分别为文本token和视觉token设置不同的跳过阈值(双模态阈值,DMT),适应不同模态的特性。
SonicMoE提出:针对高粒度MoE训练过程中的通信瓶颈,提出完整解决方案;普林斯顿大学团队实现MoE训练速度翻倍。
STAR提出:评估路由决策是否与输入数据结构对齐;评估不同专家是否真正专注于不同类型的任务或数据模式。
MP-MoE提出:使用Mahalanobis距离度量专家之间的多样性,评估是否避免了"回音室"效应。
Super Experts研究提出:开发自动化工具,快速准确识别模型中的超级专家;通过剪枝实验,评估每个专家对模型性能的影响。
MoDES提出:评估在保持性能的同时可以跳过多少比例的专家;评估MoE模型在实际推理任务中的加速效果。
ExpertFlow提出:评估专家预取策略的有效性(缓存未命中率);评估MoE推理过程中的延迟优化效果(模型停顿时间)。
Slicing and Dicing提出:通过对超过2,000次预训练实验的系统分析,评估不同设计选择(专家数量、粒度、共享专家、负载均衡等)对性能的独立和交互影响;基于大规模实验结果,提供简化的MoE设计配方。
稠密模型的所有参数对every token都参与计算,参数利用效率低。MoE模型通过稀疏激活,每个token只激活少数专家,大幅提高参数利用效率;研究表明,在所有活跃参数规模下,性能随着总MoE参数的增加而持续提升,即使在极端激活比例下也是如此。
稠密模型的所有参数共同处理所有类型的输入,缺乏专业化分工。MoE模型通过条件计算,通过门控网络为每个输入动态选择最相关的专家;Super Experts研究发现,存在极少数极其重要的专家,它们对模型性能的影响远大于其他专家;MP-MoE通过显式鼓励专家之间的多样性,避免多个专家学习相似模式。
稠密模型的推理计算量与参数规模成正比。MoE模型的实际计算量小,尽管总参数规模大,但每个token只需计算其中一小部分;推理加速技术包括:专家跳过(MoDES)在跳过88%专家时仍保持97%+性能,实现2.16× prefill加速;自适应预取(ExpertFlow)将模型停顿时间降低至基线的不足0.1%。
稠密模型的训练计算量与参数规模成正比。MoE模型的训练加速中,SonicMoE使MoE训练速度翻倍;针对高粒度MoE训练过程中的通信瓶颈提供完整解决方案。
稠密模型的架构设计相对简单,所有层结构相同。MoE模型的设计选择多样,包括专家数量、粒度、共享专家、负载均衡机制等;研究表明,专注于专家数量和粒度,其他选择对最终质量的影响最小,这简化了MoE架构的设计。
稠密模型的多模态适应需要重新训练或大量微调。MoE模型可以为不同模态(文本、视觉等)分配专门的专家;MoDES通过分别为文本token和视觉token设置不同的跳过阈值,适应不同模态的特性。