MoDES提出首个面向MoE多模态大模型的训练免调专家跳过框架:通过全局调制的局部门控(GMLG)和双模态阈值(DMT)机制,自适应跳过冗余专家;在跳过88%专家时仍保留97%+原始性能;实现2.16× prefill加速。
ExpertFlow提出专为MoE推理设计的运行时系统:利用运行时统计信息(如传输带宽、参数维度、模型反馈信号)动态调整专家激活的预测窗口长度;采用混合式跨层预测方案,融合门控前信息(pregating)与中间计算状态,提前预判未来所需的专家;将模型停顿时间降低至基线的不足0.1%。
SonicMoE由普林斯顿大学团队提出:针对高粒度MoE训练过程中的通信瓶颈,提出完整解决方案,使训练速度翻倍。
腾讯混元Turbo采用分层异构MoE架构,通过训练框架AngelPTM采用大BatchSize训练、FP8低精度训练、梯度通信与MoE通信计算优化等策略,将千卡集群通信时间缩短至行业平均水平的一半,显著提升训练与推理效率。