MP-MoE提出:将MoE路由看作专家子集选择问题,在选择高置信专家的同时显式鼓励专家之间的多样性;使用Mahalanobis距离度量专家之间的多样性,避免"回音室"效应。
STAR提出:通过广义Hebbian算法(GHA)跟踪输入数据的主导子空间,使路由决策与输入结构对齐;可选的测试时子空间更新进一步增强路由鲁棒性。
MoDES提出:通过全局信息调制每层的门控决策(全局调制局部门控,GMLG);分别为文本token和视觉token设置不同的跳过阈值(双模态阈值,DMT),适应不同模态的特性。
SonicMoE提出:针对高粒度MoE训练过程中的通信瓶颈,提出完整解决方案;普林斯顿大学团队实现MoE训练速度翻倍。