专家网络是MoE架构中的专业化子网络,每个专家负责处理特定类型的输入或任务。Super Experts研究发现,在MoE大语言模型中存在极少数极其重要的专家,它们表现出罕见但极端的激活异常值,在decoder层间的隐藏状态中产生巨大激活。
腾讯混元Large的专家层由一个共享专家和16个路由专家组成:共享专家负责处理所有token所需的通用知识和能力,而16个路由专家则根据动态路由机制,为每个token激活最相关的特定领域专家,实现通用能力与专业能力的分离与协同。
超级专家的分布是模型特定的、与数据无关的,并且不受后训练过程的影响。超级专家是Transformer中系统性异常值机制的主要来源,压缩它们会严重破坏这一机制,最终导致注意力沉没(attention sinks)的崩溃。
门控网络负责为每个输入token选择最相关的Top-K个专家。研究表明门控网络优化方面取得了显著进展。
STAR路由通过结构感知的子空间学习,将路由决策与输入数据的结构对齐,提高路由稳定性。Expert-Router耦合损失(ERC loss,字节跳动)通过让路由器和专家建立更紧密的联系,确保路由器能够准确理解每个专家的能力特点。
MP-MoE的动态集成剪枝从集成剪枝角度将MoE路由看作专家子集选择问题,在选择高置信专家的同时显式鼓励专家之间的多样性,打破"回音室"效应。
输出组合机制负责将选中的专家输出进行加权组合。Slicing and Dicing研究通过对超过2,000次预训练实验的系统研究,发现性能随着总MoE参数单调提升,即使在极端激活比例(如128)下也是如此;最优专家尺寸几乎与总参数数量无关,仅取决于活跃参数数量。
MP-MoE通过Mahalanobis距离度量专家之间的多样性,在路由选择时同时考虑专家的置信度和多样性,避免多个专家学习相似模式。
SonicMoE由Mamba作者团队提出,针对高粒度MoE训练加速,解决MoE训练过程中的通信瓶颈。ProMoE由复旦大学&阿里通义万相提出,解决DiT(Diffusion Transformer)MoE的scaling问题。