STAR提出:评估路由决策是否与输入数据结构对齐;评估不同专家是否真正专注于不同类型的任务或数据模式。
MP-MoE提出:使用Mahalanobis距离度量专家之间的多样性,评估是否避免了"回音室"效应。
Super Experts研究提出:开发自动化工具,快速准确识别模型中的超级专家;通过剪枝实验,评估每个专家对模型性能的影响。
MoDES提出:评估在保持性能的同时可以跳过多少比例的专家;评估MoE模型在实际推理任务中的加速效果。
ExpertFlow提出:评估专家预取策略的有效性(缓存未命中率);评估MoE推理过程中的延迟优化效果(模型停顿时间)。
Slicing and Dicing提出:通过对超过2,000次预训练实验的系统分析,评估不同设计选择(专家数量、粒度、共享专家、负载均衡等)对性能的独立和交互影响;基于大规模实验结果,提供简化的MoE设计配方。