首页
学习
活动
专区
圈层
工具
发布
技术百科首页 >MoE >MoE架构由哪些核心组件组成?

MoE架构由哪些核心组件组成?

词条归属:MoE

1. 专家网络(Expert Networks)

专家网络是MoE架构中的专业化子网络,每个专家负责处理特定类型的输入或任务。Super Experts研究发现,在MoE大语言模型中存在极少数极其重要的专家,它们表现出罕见但极端的激活异常值,在decoder层间的隐藏状态中产生巨大激活。

腾讯混元Large的专家层由一个共享专家和16个路由专家组成:共享专家负责处理所有token所需的通用知识和能力,而16个路由专家则根据动态路由机制,为每个token激活最相关的特定领域专家,实现通用能力与专业能力的分离与协同。

超级专家的分布是模型特定的、与数据无关的,并且不受后训练过程的影响。超级专家是Transformer中系统性异常值机制的主要来源,压缩它们会严重破坏这一机制,最终导致注意力沉没(attention sinks)的崩溃。

2. 门控网络(Gating Network)

门控网络负责为每个输入token选择最相关的Top-K个专家。研究表明门控网络优化方面取得了显著进展。

STAR路由通过结构感知的子空间学习,将路由决策与输入数据的结构对齐,提高路由稳定性。Expert-Router耦合损失(ERC loss,字节跳动)通过让路由器和专家建立更紧密的联系,确保路由器能够准确理解每个专家的能力特点。

MP-MoE的动态集成剪枝从集成剪枝角度将MoE路由看作专家子集选择问题,在选择高置信专家的同时显式鼓励专家之间的多样性,打破"回音室"效应。

3. 输出组合机制

输出组合机制负责将选中的专家输出进行加权组合。Slicing and Dicing研究通过对超过2,000次预训练实验的系统研究,发现性能随着总MoE参数单调提升,即使在极端激活比例(如128)下也是如此;最优专家尺寸几乎与总参数数量无关,仅取决于活跃参数数量。

4. 最新架构变体

MP-MoE通过Mahalanobis距离度量专家之间的多样性,在路由选择时同时考虑专家的置信度和多样性,避免多个专家学习相似模式。

SonicMoE由Mamba作者团队提出,针对高粒度MoE训练加速,解决MoE训练过程中的通信瓶颈。ProMoE由复旦大学&阿里通义万相提出,解决DiT(Diffusion Transformer)MoE的scaling问题。

相关文章
Linux内核由哪些组成,这些你了解不
Linux内核主要由 进程管理、内存管理、设备驱动、文件系统、网络协议栈 外加一个 系统调用。
嵌入式Linux内核
2022-10-26
2.1K0
焊接机器人由哪些部分组成
制造业的兴起,带动了不少行业的发展,其中焊接也是其中不可或缺的部分,但是焊接环境的恶劣,人工成本的日益增加,近年来对于焊接机器人的需求量暴涨,采用机器人焊接已成为自动焊接技术现代化的主要标志。焊接机器人是从事焊接(包括切割与喷涂)的工业机器人,主要包括工业机器人和焊接设备两部分组成。机器人又由机器人本体和控制柜组成。对于智能焊接机器人,还需要激光或者视觉传感器以及智能控制设备。
创想智控
2022-11-25
9090
Docker由哪些要素组成?常见的容器化技术推荐
传统的虚拟机技术通过在物理硬件上运行虚拟化层(Hypervisor),将物理资源(如处理器、内存、存储等)虚拟化为多个独立的虚拟机。每个虚拟机都有自己的操作系统和应用程序,它们在各自的虚拟环境中运行,并与物理硬件和其他虚拟机隔离开来。
DOBOTGEEKER
2023-06-02
6750
短视频系统源码APP开发由哪些功能模块组成?
近年来,随着新媒体技术的快速发展,短视频系统源码APP,如今已经成为一种网络传播主流。短视频的快速兴起,究其原因,既有其形式的简约、技术的成熟等基础性因素,也源于它适应了当前人们的新媒体化生存需求,如短视频对碎片化时间、生活化认知、个性化创意的填补、契合和张扬。大众对于能有一种方法来接受动态的咨询非常的渴望,短视频就是在这样的环境下应运而生的。可以说一夜之间,短视频类型的app就如雨后春笋般地出现在大家生活中。那么短视频系统源码APP开发都有哪些功能模块组成?现在小编就来简单讲解一下:
布谷安妮
2019-10-29
1.2K0
Ribbon 的核心组件有哪些
Spring Cloud Ribbon 是一个客户端负载均衡器,它的核心组件包括负载均衡器、服务列表和负载均衡策略。
堕落飞鸟
2023-04-07
7550
点击加载更多
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
领券