MoE架构由哪些核心组件组成？

修改于 2026-06-10 10:23:13

词条归属：MoE

1. 专家网络（Expert Networks）

专家网络是MoE架构中的专业化子网络，每个专家负责处理特定类型的输入或任务。Super Experts研究发现，在MoE大语言模型中存在极少数极其重要的专家，它们表现出罕见但极端的激活异常值，在decoder层间的隐藏状态中产生巨大激活。

腾讯混元Large的专家层由一个共享专家和16个路由专家组成：共享专家负责处理所有token所需的通用知识和能力，而16个路由专家则根据动态路由机制，为每个token激活最相关的特定领域专家，实现通用能力与专业能力的分离与协同。

超级专家的分布是模型特定的、与数据无关的，并且不受后训练过程的影响。超级专家是Transformer中系统性异常值机制的主要来源，压缩它们会严重破坏这一机制，最终导致注意力沉没（attention sinks）的崩溃。

2. 门控网络（Gating Network）

门控网络负责为每个输入token选择最相关的Top-K个专家。研究表明门控网络优化方面取得了显著进展。

STAR路由通过结构感知的子空间学习，将路由决策与输入数据的结构对齐，提高路由稳定性。Expert-Router耦合损失（ERC loss，字节跳动）通过让路由器和专家建立更紧密的联系，确保路由器能够准确理解每个专家的能力特点。

MP-MoE的动态集成剪枝从集成剪枝角度将MoE路由看作专家子集选择问题，在选择高置信专家的同时显式鼓励专家之间的多样性，打破"回音室"效应。

3. 输出组合机制

输出组合机制负责将选中的专家输出进行加权组合。Slicing and Dicing研究通过对超过2,000次预训练实验的系统研究，发现性能随着总MoE参数单调提升，即使在极端激活比例（如128）下也是如此；最优专家尺寸几乎与总参数数量无关，仅取决于活跃参数数量。

4. 最新架构变体

MP-MoE通过Mahalanobis距离度量专家之间的多样性，在路由选择时同时考虑专家的置信度和多样性，避免多个专家学习相似模式。

SonicMoE由Mamba作者团队提出，针对高粒度MoE训练加速，解决MoE训练过程中的通信瓶颈。ProMoE由复旦大学&阿里通义万相提出，解决DiT（Diffusion Transformer）MoE的scaling问题。

Linux内核由哪些组成，这些你了解不

linux 嵌入式

Linux内核主要由进程管理、内存管理、设备驱动、文件系统、网络协议栈外加一个系统调用。

嵌入式Linux内核

2022-10-26

2.2K0

焊接机器人由哪些部分组成

机器人

制造业的兴起，带动了不少行业的发展，其中焊接也是其中不可或缺的部分，但是焊接环境的恶劣，人工成本的日益增加，近年来对于焊接机器人的需求量暴涨，采用机器人焊接已成为自动焊接技术现代化的主要标志。焊接机器人是从事焊接（包括切割与喷涂）的工业机器人，主要包括工业机器人和焊接设备两部分组成。机器人又由机器人本体和控制柜组成。对于智能焊接机器人，还需要激光或者视觉传感器以及智能控制设备。

创想智控

2022-11-25

9600

Docker由哪些要素组成？常见的容器化技术推荐

容器镜像服务

传统的虚拟机技术通过在物理硬件上运行虚拟化层（Hypervisor），将物理资源（如处理器、内存、存储等）虚拟化为多个独立的虚拟机。每个虚拟机都有自己的操作系统和应用程序，它们在各自的虚拟环境中运行，并与物理硬件和其他虚拟机隔离开来。

DOBOTGEEKER

2023-06-02

7150

短视频系统源码APP开发由哪些功能模块组成？

短视频网站

近年来，随着新媒体技术的快速发展，短视频系统源码APP，如今已经成为一种网络传播主流。短视频的快速兴起，究其原因，既有其形式的简约、技术的成熟等基础性因素，也源于它适应了当前人们的新媒体化生存需求，如短视频对碎片化时间、生活化认知、个性化创意的填补、契合和张扬。大众对于能有一种方法来接受动态的咨询非常的渴望，短视频就是在这样的环境下应运而生的。可以说一夜之间，短视频类型的app就如雨后春笋般地出现在大家生活中。那么短视频系统源码APP开发都有哪些功能模块组成？现在小编就来简单讲解一下：

布谷安妮

2019-10-29

1.2K0

Ribbon 的核心组件有哪些

spring cloud ribbon

Spring Cloud Ribbon 是一个客户端负载均衡器，它的核心组件包括负载均衡器、服务列表和负载均衡策略。

堕落飞鸟

2023-04-07

8020

点击加载更多

MoE架构由哪些核心组件组成？

1. 专家网络（Expert Networks）

2. 门控网络（Gating Network）

3. 输出组合机制

4. 最新架构变体

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐