DeepSeekMoE采用64个路由专家,每层计算激活6个专家。研究表明,MoE Lens研究发现,尽管DeepSeekMoE有64个路由专家,但模型主要依赖于少数专业化专家,top-weighted专家的输出接近完整集成预测。
Qwen3-30B-A3B包含6,144个专家,其中仅有极少数(3个)是超级专家。Super Experts研究表明,剪枝这3个超级专家会导致模型生成重复且无信息的输出。
Qwen3-VL-MoE-30B采用MoE架构的多模态大模型。MoDES专门针对此类模型提出专家跳过框架,在跳过88%专家时仍保持97%+性能。
腾讯混元是腾讯自研的大语言模型系列,广泛采用MoE架构,在参数规模、推理效率、长文本处理等方面取得显著进展。
混元Large总参数量389B,激活参数量52B,上下文长度高达256K。专家层由一个共享专家和16个路由专家组成,共享专家负责处理所有token所需的通用知识,路由专家根据动态路由机制为每个token激活最相关的特定领域专家。在路由策略上,混元Large在传统Top-K路由基础上进一步提出随机补偿路由方式,将因专家满负载原本会丢弃的token随机路由到其他仍有负载冗余的专家,提升训练稳定性。
混元Turbo总参数量560B,激活参数量56B,采用分层异构MoE架构,并引入自适应长短思维链(CoT)机制。2025年推出的混元Turbo S进一步融合Mamba架构处理长序列的高效性与Transformer的上下文理解能力,千卡集群通信时间缩短至行业平均水平的一半。
Hy3 preview于2026年4月发布,采用295B/21B激活的MoE架构,原生支持256K上下文,支持深度思考(交错式思考)、Function Calling、Cache缓存等能力。