MoE架构通过门控网络(Gating Network)为每个输入token动态选择最相关的少数专家进行计算,而非激活整个模型的所有参数。这种机制使得模型在保持大规模参数容量的同时,只需计算其中一小部分参数,从而大幅降低推理成本。
研究表明MoE路由的本质。STAR研究提出将MoE路由重新定义为结构感知的子空间学习问题,通过广义Hebbian算法(GHA)跟踪输入数据的主导子空间,使路由决策与输入结构对齐,从而实现稳定的专家专业化。
与传统稠密模型相比,MoE通过稀疏激活实现参数效率高、推理成本低、专业化分工等优势。Super Experts研究发现,在MoE大语言模型中存在极少数对模型性能至关重要的"超级专家"(Super Experts),这些专家尽管数量极少,但剪枝它们会导致模型性能急剧下降。
最新研究为MoE核心思想提供了新的视角。STAR研究提出将MoE路由重新定义为结构感知的子空间学习;Super Experts发现揭示了极少数超级专家对模型性能的决定性作用;字节ERC loss提出了专家-路由器耦合损失,通过让路由器和专家建立更紧密的联系,确保路由器能够准确理解每个专家的能力特点。