Slicing and Dicing研究表明:专家数量和粒度是关键,在其他设计选择(如共享专家、异构专家、负载均衡机制)影响相对较小的情况下,专家数量和粒度对性能的影响占主导地位;专注于专家数量和粒度,其他选择对最终质量的影响最小,这简化了MoE架构的扩展设计。
MoDES展示了MoE在多模态大模型中的可扩展性:通过双模态阈值(DMT)机制,分别处理文本token和视觉token的不同特性,实现自适应的专家跳过;利用文本token与视觉token在FFN中更新幅度的显著差异(视觉token与FFN权重更正交),实现更高的冗余度识别。
腾讯混元Turbo S采用大规模混合Mamba-MoE架构,融合Mamba架构处理长序列的高效性与Transformer架构的上下文理解能力,在总参数量560B、激活参数量56B的情况下,兼顾长序列处理效率与模型表达能力。
MoEMeta提出:通过MoE元学习框架,将全局共享知识与任务特定上下文分离,实现快速任务适应;MoE模型学习全局共享的关系原型,增强泛化能力。