稠密模型的所有参数对every token都参与计算,参数利用效率低。MoE模型通过稀疏激活,每个token只激活少数专家,大幅提高参数利用效率;研究表明,在所有活跃参数规模下,性能随着总MoE参数的增加而持续提升,即使在极端激活比例下也是如此。
稠密模型的所有参数共同处理所有类型的输入,缺乏专业化分工。MoE模型通过条件计算,通过门控网络为每个输入动态选择最相关的专家;Super Experts研究发现,存在极少数极其重要的专家,它们对模型性能的影响远大于其他专家;MP-MoE通过显式鼓励专家之间的多样性,避免多个专家学习相似模式。
稠密模型的推理计算量与参数规模成正比。MoE模型的实际计算量小,尽管总参数规模大,但每个token只需计算其中一小部分;推理加速技术包括:专家跳过(MoDES)在跳过88%专家时仍保持97%+性能,实现2.16× prefill加速;自适应预取(ExpertFlow)将模型停顿时间降低至基线的不足0.1%。
稠密模型的训练计算量与参数规模成正比。MoE模型的训练加速中,SonicMoE使MoE训练速度翻倍;针对高粒度MoE训练过程中的通信瓶颈提供完整解决方案。
稠密模型的架构设计相对简单,所有层结构相同。MoE模型的设计选择多样,包括专家数量、粒度、共享专家、负载均衡机制等;研究表明,专注于专家数量和粒度,其他选择对最终质量的影响最小,这简化了MoE架构的设计。
稠密模型的多模态适应需要重新训练或大量微调。MoE模型可以为不同模态(文本、视觉等)分配专门的专家;MoDES通过分别为文本token和视觉token设置不同的跳过阈值,适应不同模态的特性。