Super Experts研究发现:超级专家是Transformer中系统性异常值机制的主要来源;压缩超级专家会严重破坏这一机制,最终导致注意力沉没(attention sinks)的崩溃;这一发现揭示了MoE与注意力机制之间的深层联系,为理解MoE 大语言模型的内在动态提供了新视角。
STAR提出:通过结构感知的子空间学习,STAR不仅优化了路由决策,还可能间接影响了注意力机制的计算;未来的研究可能会进一步探索路由决策与注意力机制之间的协同优化。