开发者社区

文档建议反馈控制台

技术百科

搜索技术百科

技术百科

发布

技术百科首页 >MoE >哪些知名的AI模型使用了MoE架构？

哪些知名的AI模型使用了MoE架构？

修改于 2026-06-10 10:28:11

2

词条归属：MoE

1. DeepSeek系列

DeepSeekMoE采用64个路由专家，每层计算激活6个专家。研究表明，MoE Lens研究发现，尽管DeepSeekMoE有64个路由专家，但模型主要依赖于少数专业化专家，top-weighted专家的输出接近完整集成预测。

2. Qwen系列

Qwen3-30B-A3B包含6,144个专家，其中仅有极少数（3个）是超级专家。Super Experts研究表明，剪枝这3个超级专家会导致模型生成重复且无信息的输出。

3. 多模态大模型

Qwen3-VL-MoE-30B采用MoE架构的多模态大模型。MoDES专门针对此类模型提出专家跳过框架，在跳过88%专家时仍保持97%+性能。

4. 腾讯混元系列

腾讯混元是腾讯自研的大语言模型系列，广泛采用MoE架构，在参数规模、推理效率、长文本处理等方面取得显著进展。

混元Large总参数量389B，激活参数量52B，上下文长度高达256K。专家层由一个共享专家和16个路由专家组成，共享专家负责处理所有token所需的通用知识，路由专家根据动态路由机制为每个token激活最相关的特定领域专家。在路由策略上，混元Large在传统Top-K路由基础上进一步提出随机补偿路由方式，将因专家满负载原本会丢弃的token随机路由到其他仍有负载冗余的专家，提升训练稳定性。

混元Turbo总参数量560B，激活参数量56B，采用分层异构MoE架构，并引入自适应长短思维链（CoT）机制。2025年推出的混元Turbo S进一步融合Mamba架构处理长序列的高效性与Transformer的上下文理解能力，千卡集群通信时间缩短至行业平均水平的一半。

Hy3 preview于2026年4月发布，采用295B/21B激活的MoE架构，原生支持256K上下文，支持深度思考（交错式思考）、Function Calling、Cache缓存等能力。

相关文章

架构细节 | 看看 Medium 的开发团队用了哪些技术？

敏捷开发系统架构

image.png 说到底，Medium是个社交网络，人们可以在这里分享有意思的故事和想法。据统计，目前累积的用户阅读时间已经超过14亿分钟，合两千六百年。我们支持着每个月两千五百万的读者以及每周数以万计的文章发布。我们不想Medium的文章以阅读量为成功的依据，而是观点取胜。在Medium，文章的观点比作者的名头更重要。在这里，对话促进想法，并且很看重文字的力量。我是Medium开发团队的负责人，此前在Google工作，负责开发Google+和Gmail，还创立了Closure项目。业余时间我喜欢滑

春哥大魔王

2018-04-17

1.8K0

MoE(Mixture-of-Experts)大模型架构的优势是什么？

腾讯技术创作特训营S11#重启人生

在其MOE架构中，引入了路由专家 (Routed Experts) 和共享专家 (Shared Experts) 。主要是用来激活那些参数需要被更新。

算法一只狗

2025-01-01

1.2K0

AI 创作日记 | 当新零售遇见 MoE 架构：DeepSeek 模型设计的商业启示

腾讯技术创作特训营S12#AI进化论项目实战

本文深入探讨了当新零售遇见 MoE 架构时，DeepSeek 模型设计所带来的商业启示。

2025-04-02

5300

DeepSeek v3 的 MoE 模型架构与激活参数解析

在人工智能和深度学习的研究中，模型的规模和架构决定了它的能力与潜力。本文将深入探讨 DeepSeek v3 这一模型的独特之处——其被描述为一个拥有 671B 参数的 MoE（Mixture of Experts）模型，其中 37B 参数在推理过程中被激活。这一表述对于许多新接触这一领域的人来说可能显得晦涩难懂，但通过逐步解析和实际案例的对比，能帮助更好地理解这一模型的结构与工作原理。

编程小妖女

2025-01-12

3.7K0

MoR vs MoE架构对比：更少参数、更快推理的大模型新选择

架构路由模型性能递归

Google DeepMind 近期发布了关于递归混合（Mixture of Recursion）架构的研究论文，这一新型 Transformers 架构变体在学术界和工业界引起了广泛关注。该架构通过创新的设计理念，能够在保持模型性能的前提下显著降低推理延迟和模型规模。

2025-08-20

6080

点击加载更多