MoE 在大语言模型中的应用:
Super Experts研究发现:开发了用于快速准确识别超级专家的自动化工具;通过识别超级专家,可以指导更有效的模型压缩策略,在保持性能的同时降低模型尺寸。
字节跳动ERC loss提出:通过让路由器更好地理解每个专家的能力特点,提高路由准确性;在多个基准测试中显著提升大语言模型性能。
STAR提出:将路由定义为子空间学习问题,提高路由稳定性;通过测试时子空间更新,增强模型在输入分布偏移情况下的鲁棒性。