首页
学习
活动
专区
圈层
工具
发布
技术百科首页 >MoE >哪些知名的AI模型使用了MoE架构?

哪些知名的AI模型使用了MoE架构?

词条归属:MoE

1. DeepSeek系列

DeepSeekMoE采用64个路由专家,每层计算激活6个专家。研究表明,MoE Lens研究发现,尽管DeepSeekMoE有64个路由专家,但模型主要依赖于少数专业化专家,top-weighted专家的输出接近完整集成预测。

2. Qwen系列

Qwen3-30B-A3B包含6,144个专家,其中仅有极少数(3个)是超级专家。Super Experts研究表明,剪枝这3个超级专家会导致模型生成重复且无信息的输出。

3. 多模态大模型

Qwen3-VL-MoE-30B采用MoE架构的多模态大模型。MoDES专门针对此类模型提出专家跳过框架,在跳过88%专家时仍保持97%+性能。

4. 腾讯混元系列

腾讯混元是腾讯自研的大语言模型系列,广泛采用MoE架构,在参数规模、推理效率、长文本处理等方面取得显著进展。

混元Large总参数量389B,激活参数量52B,上下文长度高达256K。专家层由一个共享专家和16个路由专家组成,共享专家负责处理所有token所需的通用知识,路由专家根据动态路由机制为每个token激活最相关的特定领域专家。在路由策略上,混元Large在传统Top-K路由基础上进一步提出随机补偿路由方式,将因专家满负载原本会丢弃的token随机路由到其他仍有负载冗余的专家,提升训练稳定性。

混元Turbo总参数量560B,激活参数量56B,采用分层异构MoE架构,并引入自适应长短思维链(CoT)机制。2025年推出的混元Turbo S进一步融合Mamba架构处理长序列的高效性与Transformer的上下文理解能力,千卡集群通信时间缩短至行业平均水平的一半。

Hy3 preview于2026年4月发布,采用295B/21B激活的MoE架构,原生支持256K上下文,支持深度思考(交错式思考)、Function Calling、Cache缓存等能力。

相关文章
架构细节 | 看看 Medium 的开发团队用了哪些技术?
image.png 说到底,Medium是个社交网络,人们可以在这里分享有意思的故事和想法。据统计,目前累积的用户阅读时间已经超过14亿分钟,合两千六百年。 我们支持着每个月两千五百万的读者以及每周数以万计的文章发布。我们不想Medium的文章以阅读量为成功的依据,而是观点取胜。在Medium,文章的观点比作者的名头更重要。在这里,对话促进想法,并且很看重文字的力量。 我是Medium开发团队的负责人,此前在Google工作,负责开发Google+和Gmail,还创立了Closure项目。业余时间我喜欢滑
春哥大魔王
2018-04-17
1.8K0
MoE(Mixture-of-Experts)大模型架构的优势是什么?
在其MOE架构中,引入了路由专家 (Routed Experts) 和共享专家 (Shared Experts) 。主要是用来激活那些参数需要被更新。
算法一只狗
2025-01-01
1.2K0
AI 创作日记 | 当新零售遇见 MoE 架构:DeepSeek 模型设计的商业启示
本文深入探讨了当新零售遇见 MoE 架构时,DeepSeek 模型设计所带来的商业启示。
叶一一
2025-04-02
5300
DeepSeek v3 的 MoE 模型架构与激活参数解析
在人工智能和深度学习的研究中,模型的规模和架构决定了它的能力与潜力。本文将深入探讨 DeepSeek v3 这一模型的独特之处——其被描述为一个拥有 671B 参数的 MoE(Mixture of Experts)模型,其中 37B 参数在推理过程中被激活。这一表述对于许多新接触这一领域的人来说可能显得晦涩难懂,但通过逐步解析和实际案例的对比,能帮助更好地理解这一模型的结构与工作原理。
编程小妖女
2025-01-12
3.7K0
MoR vs MoE架构对比:更少参数、更快推理的大模型新选择
Google DeepMind 近期发布了关于递归混合(Mixture of Recursion)架构的研究论文,这一新型 Transformers 架构变体在学术界和工业界引起了广泛关注。该架构通过创新的设计理念,能够在保持模型性能的前提下显著降低推理延迟和模型规模。
deephub
2025-08-20
6080
点击加载更多
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券