Slicing and Dicing研究通过对超过2,000次预训练实验(模型规模高达6.6B总参数)的系统分析发现:在所有活跃参数规模下,性能随着总MoE参数的增加而持续提升,即使在极端活跃专家激活比例(如128)下也是如此;最优专家尺寸几乎与总参数数量无关,仅取决于活跃参数预算,这简化了MoE架构的设计。
腾讯混元Large采用389B总参数、52B激活参数的MoE架构,是这一参数效率优势的典型体现:在总参数规模巨大的情况下,每次推理只激活约13.4%的参数,实现了参数容量与推理成本的有效平衡。
Super Experts研究发现:在MoE大语言模型中,极少数专家(超级专家)对模型性能的影响远大于其他专家;这一发现表明,未来的MoE架构设计可以更加注重识别和优化这些超级专家,从而进一步提高参数效率。
STAR研究提出:通过使路由决策与输入数据结构对齐,实现更稳定的专家专业化,从而提高参数利用效率;可选的测试时子空间更新进一步增强了路由鲁棒性和泛化能力,特别是在输入分布偏移的情况下。