原文地址:Mixture of Experts (MoE)[1] 原文作者:Sebastian Raschka[2] 混合专家(Mixture of Experts, MoE)是近年来开源大模型能够拥有极高的总参数量 架构画廊[3] 《从零构建大模型》章节[4] DeepSeek V3 和 R1 中的混合专家模块与标准前馈块的对比 引自 大语言模型架构对比[5]:主要结构的变化非常直接。 混合专家层中总参数与活跃参数的差异 引自《从零构建大模型》中 MoE 材料:随着专家数量的增加,总参数的增长速度远快于每个 token 的活跃参数。 这里的“稀疏”是什么意思 MoE 层通常被描述为稀疏的,因为并非每个 token 都使用所有专家。模型很大,但每个 token 的计算是有选择性的。 例如,“共享专家”就是除了路由选择的专家外,始终保持激活的专家;还有“潜在 MoE”(latent MoE[12]),如 Nemotron 3 Super,将专家计算迁移到更小的潜在空间中。
混合专家(MoE)概念是协作智能的象征,体现了“整体大于部分之和”的说法。MoE模型汇集了各种专家模型的优势,以提供更好的预测。 它是围绕一个门控网络和一组专家网络构建的,每个专家网络都擅长特定任务的不同方面 在本文中,我将使用Pytorch来实现一个MoE模型。在具体代码之前,让我们先简单介绍一下混合专家的体系结构。 上图显示了MoE中的处理流程。混合专家模型的优点在于它的简单。通过学习复杂的问题空间以及专家在解决问题时的反应,MoE模型有助于产生比单个专家更好的解决方案。 混合专家模型在许多领域都有应用,包括推荐系统、语言建模和各种复杂的预测任务。有传言称,GPT-4是由多个专家组成的。 总结 我们测试的输出结果显示了混合专家模型的强大功能。该模型通过门控网络将各个专家模型的优势结合起来,取得了比单个专家模型更高的精度。
混合专家架构(MoE)的突破性价值体现在其独特的计算效率优势——该架构通过动态激活专家模块的机制,可在大幅降低算力消耗的同时完成高质量预训练。 混合专家模型(MoE)本质上是一种改进版的Transformer架构,其核心创新点在于引入动态计算的模块化结构,具体可通过以下维度理解: 稀疏 MoE 层:不同于传统Transformer中每个前馈网络 尽管混合专家模型 (MoE) 提供了若干显著优势,例如更高效的预训练和与稠密模型相比更快的推理速度,但它们也伴随着一些挑战: 训练挑战: 虽然 MoE 能够实现更高效的计算预训练,但它们在微调阶段往往面临泛化能力不足的问题 例如,在混合专家模型 (MoE) 中,尽管较大的批量大小通常有利于提高性能,但当数据通过激活的专家时,实际的批量大小可能会减少。 对各组内的专家执行组内排序,选取局部专家 跨组合并所有候选专家,保留全局个高亲和力专家 Phase 3 - 激活与加权 对被选中的k个Router专家执行前向计算 对它们的输出按亲和度进行Softmax
2025年,混合专家模型(Mixture of Experts,MoE)已成为突破这些限制的关键技术路径。 1.2 MoE的核心组成:专家与门控 混合专家模型的架构创新在于将传统的密集前馈网络层替换为稀疏激活的专家网络集合。 5.3 其他主流MoE模型比较 2025年,除了华为盘古Ultra和DeepSeek V3外,还有多款代表性的MoE模型: 模型名称 参数规模 专家数量 激活策略 特色技术 阿里Qwen3-Next-80B-A3B 结论:稀疏计算引领大模型新时代 混合专家模型(MoE)通过创新的稀疏计算架构,成功实现了参数规模与计算成本的有效解耦,为大语言模型的持续发展提供了新的技术路径。 【LLMs篇】混合专家模型MoE技术深度解析. CSDN博客, 2025.
MoE定义 将传统 Transformer 模型中的每个前馈网络(FFN) 层替换为MoE层,就构成了混合专家系统,其中MoE 层由两个核心部分组成:一个门控网络和若干数量的专家系统。 在混合专家模型训练中,门控网络往往倾向于主要激活相同的几个专家,这种情况可能会自我加强,因为受欢迎的专家训练得更快,因此它们更容易被选择。 3,MoE系统优势和局限 • 预训练速度更快,且有更快的推理速度。 具有相同参数量的稠密模型和MoE模型,在训练和推理时,MoE模型具有明显优势。 稀疏混合专家模型适用于拥有多台机器且要求高吞吐量的场景。在固定的预训练计算资源下,稀疏模型往往能够实现更优的效果,相反,在显存较少且吞吐量要求不高的场景,稠密模型则是更合适的选择。 虽然MoE模型在同量级模型中,训练和推理速度快,但是面临个三个主要的问题: 1) 模型复杂度,2) 训练稳定性 ,3) 通信开销大 参考: [1] Fedus, W., Zoph, B., and Shazeer
1, MoE模型架构中路由器和专家系统介绍 2, 专家系统中稀疏性的公式推导和具体的推理流程介绍 3, MoE系统中专家负载不均衡问题的解决方案探讨 1,MoE原理介绍 MoE定义:将传统 Transformer 模型中的每个前馈网络(FFN) 层替换为MoE层,就构成了混合专家系统,其中MoE 层由两个核心部分组成:一个路由门控网络和若干数量的专家系统。 训练过程中,专家系统会逐渐学会处理特定类型的输入,从而提高模型的泛化能力和性能。 图1,混合专家系统MoE示意。 2,MoE token负载不均衡问题 2.1,优化思路和名词介绍 在混合专家模型训练中,门控网络往往倾向于主要激活相同的几个专家,这种情况可能会自我加强,因为受欢迎的专家训练得更快,因此它们更容易被选择 稀疏混合专家模型适用于拥有多台机器且要求高吞吐量的场景。在固定的预训练计算资源下,稀疏模型往往能够实现更优的效果,相反,在显存较少且吞吐量要求不高的场景,稠密模型则是更合适的选择。
随着模型规模的不断扩大,如何在有限的计算资源下实现更高的性能,成为了一个亟待解决的挑战。近年来,混合专家(Mixture of Experts,简称MoE)架构逐渐成为研究的热点。 共享专家隔离 除了细粒度专家分割,DeepSeek MoE还引入了共享专家隔离机制。在传统MoE架构中,每个专家通常独立运行,这可能导致资源的浪费和计算的冗余。 DeepSeek MoE通过设置共享专家,使得部分专家可以被多个任务共享。这种共享机制类似于共享经济中的资源共享模式,通过优化资源分配,减少了冗余计算,提高了计算资源的利用效率。 这一结果表明,DeepSeek MoE在相同参数规模下,能够以更低的计算量实现更高的性能。 计算效率的提升 DeepSeek MoE通过细粒度专家分割和共享专家隔离机制,显著提高了计算效率。 细粒度专家分割使得每个专家能够更高效地处理特定任务,减少了不必要的计算。共享专家隔离机制则进一步优化了资源分配,减少了冗余计算。
MoE(Mix of Expert)混合专家系统在训练和推理时,相比于稠密模型具有明显的优势,但同样也面临训练不稳定,知识混杂和知识冗余问题。 本节在经典MoE的基础上介绍deepseek对MoE系统的优化,使其训练更稳定,计算更高效的方式。 主要内容包括: 1)经典混合专家系统的定义和两个主要问题 2)deepseek MoE系统的细粒度专家划分和共享专家隔离方案 3)两个优化方案的消融实验和负载均衡方案 1,经典MoE系统 1.1,经典MoE 2,Deepseek MoE 优化方案 图1,deepseek MoE 混合专家系统优化策略 2.1,细粒度专家划分 细粒度专家划分(Fine-Grained Expert Segmentation)为解决知识混杂问题 设备感知调度:将专家均匀分配到多个计算设备(如 GPU),限制一个 token 激活的专家最多分布在 3 个设备上,减少设备间的数据传输开销。
随着数据规模和模型复杂度的不断增长,传统的单一专家模型在处理大规模、多样化的任务时逐渐暴露出局限性。为了突破这一瓶颈,混合专家系统(Mixture of Experts,MoE)应运而生。 1.1 混合专家系统的兴起 随着模型规模突破千亿参数,传统密集模型面临显存墙、训练效率瓶颈等问题。 DeepSeek MoE的研发历程展现了技术演进的三个阶段: (一)早期探索阶段 混合专家系统的思想最初源于对人类大脑神经元工作方式的模拟,不同神经元在处理不同类型的信息时发挥主导作用。 这一阶段的探索为MoE架构的形成奠定了基础。 (二)技术成型阶段 随着深度学习技术的快速发展,研究者们将深度神经网络与MoE架构相结合,形成了更强大的混合专家模型。 提高计算资源利用效率 与传统的单一专家模型相比,DeepSeek系统在训练和推理过程中可以更高效地利用计算资源。由于专家网络是并行工作的,可以通过分布式计算和并行处理来加速模型的训练和推理过程。
而 **MoE(Mixture of Experts,混合专家)** 模型则另辟蹊径,它如同一个 “智慧联盟”,将多个 “专家模型” 组合在一起,每个专家专注擅长领域,通过协作来处理复杂任务,让模型性能实现质的飞跃 稀疏激活:在实际应用中,为了提高计算效率,MoE 模型常常采用稀疏激活机制,即每次只激活少数几个专家模型参与计算,而不是让所有专家都对每个数据进行处理,这样能大幅减少计算量,同时保持模型性能。 计算机视觉 在图像识别中,对于不同类型的图像(如动物、风景、人物等),MoE 模型的各个专家可以分别学习对应类型图像的特征,门控网络判断输入图像类型后,交由相应专家进行识别,提升识别效率和准确率;在图像生成任务中 3. MoE 混合专家模型以其独特的 “分工协作” 理念,为机器学习带来了新的思路和强大的性能提升。无论是新手探索未知领域,还是成手寻求技术突破,MoE 模型都充满了探索价值。
/Time-MoE 关键词:时间序列预测,基础模型,混合专家系统 新智元:全球首次! 关键技术突破: 强大的混合专家架构:Time-MoE采用稀疏激活机制,在预测任务中仅激活部分网络节点,这不仅确保了高预测精度,还显著降低了计算负担,完美解决了时序大模型在推理阶段的计算瓶颈。 此外,模型引入了稀疏激活的混合专家层来取代标准Transformer模块里的FFN。公式化概括如下: 其中Mixture代表混合专家层。 如模型框架图中③所示,单个时间序列数据点可以被分配给一个或多个专家。通过选择部分专家网络来处理特定时间点的输入,模型的计算效率得到了提高。 full-shot 3. 消融实验 文中进一步提供了一系列消融实验来验证模型框架设计的合理性。实验表明,Time-MoE的设计在提升模型精度上是有效的。
MoE MoE架构使用了类似GPT-3的NLG模型。包括350M/1.3B/6.7B(24/24/32层,1024/2048/4096隐藏尺寸,16/16/32注意头)。 1.3 b +MoE-128模型可以用13B密集模型的训练成本达到6.7B密集模型的模型质量,而训练计算量减少5倍。 为了提高MoE模型的泛化性能,通常有两种方法:(1)增加专家数量,增加内存;(2)采用Top-2专家选择,这样计算量会多33%。 但是因为计算方式不同,Residual-MoE比Top2-MoE快10%以上。 3、PR-MoE 根据上面的研究结果,论文的新体系结构在最后几层使用了更多的专家。 为了将非专家计算扩展到相同数量的gpu,可以在没有通信开销的情况下使用数据并行。
其核心创新是一个名为“高效稀疏专家混合模块”的技术,该系统内置不同专长的AI专家,能根据输入图像智能调度专家组合。 推理阶段则切换至硬性Top-K策略,仅激活K个专家模型(K ≪ E),从而实现实际计算稀疏化与加速效果[7]。 这种自适应机制有效解决了传统密集模型固有的计算冗余问题,使得在不同部署阶段能够高效选择专家模型。 高效专家架构:为满足实时检测场景下严格的计算约束,每个专家模块(Expert)采用深度可分离卷积作为核心构建单元,替代传统标准卷积结构。 ,原理解释看这里 大语言与多模态模型架构关键组件-混合专家(MOE)详解 总结:2026年的YOLO已经不是CNN天下,是Transformer跟大模型架构借鉴学习的新生。
通过这些设计,Moirai-MoE的专业化以数据驱动的方式实现,并在token级别运行。 基于稀疏混合专家的时序基础模型 Moirai-MoE构建在它的前序工作Moirai之上。 Transformer中的稀疏混合专家。 稀疏混合专家Transformer 通过用MoE层替换Transformer的每个FFN来建立专家混合层。该MoE层由个专家网络和一个门控函数组成。 每个token只激活一个专家子集,从而允许专家专注于不同模式的时间序列数据并确保计算效率。在Moirai-MoE中,作者探索了不同的门控函数。 3. 训练目标 为了同时支持点预测和概率预测两种预测模式,Moirai-MoE的训练目标设定为优化未来混合分布的对数似然函数。
,以MoE为核心的专家网络技术,让其以极低的推理成本,获得了媲美gpt-4o的效果。 今天的重点是更深一个层次,带大家代码级认识MoE混合专家网络技术。 1.2 技术洞察—MoE(Mixture-of-Experts,混合专家网络) MoE(Mixture-of-Experts) 并不是一个新词,近7-8年间,在我做推荐系统精排模型过程中,业界将MoE技术应用于推荐系统多任务学习 二、MoE(Mixture-of-Experts,混合专家网络) 2.1 技术原理 MoE(Mixture-of-Experts)全称为混合专家网络,主要由多个专家网络、多个任务塔、门控网络构成。 2.2 技术优缺点 相较于传统的DNN网络,MoE的本质是通过多个专家网络对预估任务共同决策,引入Gate作为专家的裁判,给每一个专家打分,判定哪个专家更加权威。
混合专家(MoE)模型作为一种创新架构,正悄然改变着大语言模型的格局,它打破传统单一模型的局限,融合多个专家模型的智慧,宛如召集了一群各有所长的智者,共同应对复杂多变的语言任务,让模型的表现更加卓越。 接下来带大家探寻如何利用Hugging Face Transformer库自定义一个独树一帜的混合专家模型。MoE模型,其设计理念独辟蹊径,核心在于突破传统模型的单一架构束缚 。 由于MoE模型包含多个专家模型,其计算资源的消耗相对较大,在部署和推理过程中可能会面临性能瓶颈。为了解决这个问题,我们可以采用一些优化技术,如模型量化、剪枝等。 剪枝则是通过去除模型中一些不重要的连接和神经元,来简化模型结构,降低计算资源的消耗 。随着技术的不断进步和应用场景的不断拓展,混合专家(MoE)模型展现出了无限的潜力。 通过以上对利用Hugging Face Transformer库自定义混合专家(MoE)模型的深入探讨,我们不仅了解了MoE模型的原理和优势,还掌握了构建和应用MoE模型的关键技术和方法。
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 红极一时的开源MoE模型Mixtral,论文终于新鲜出炉! 而在大多数人的印象中,Mixtral里的8个专家,是分别负责处理不同领域的话题的…… 论文的结论曝光后,不少网友开始认为“专家混合”这个说法,可能不那么贴切了: 于是,针对Mixtral真实的工作机制, 但也有网友表示了不同意见: 这个问题并不根属于MoE,因为自己之前见过的MoE模型中,是发现了真·专家分工的现象的。 那么,这究竟是怎么一回事呢? 实验未发现专家按领域分布 在训练过程中,作者观察了Mixtral中是否有一些专家会针对某些特定领域进行专门化。 具体来说,作者计算了第0、15、31层在The Pile验证集的不同子集(包含不同领域的文档)上被选中的专家分布。
专家混合(MoE)是一种基于Transformers构建的高级架构。其主要理念是通过激活少数称为专家的专业网络,使模型更高效。 每个专家都是一个轻量级前馈神经网络,每次只根据输入选择少数专家。 该选择由路由器处理,在推理过程中动态选择每个标记最相关的专家。 通过每个输入只使用少数专家,MoE模型可以: 大幅降低计算成本, 提升整体模型容量, 并允许不同专家专注于不同类型的数据或任务。 MoE的两个主要组成部分,即专家和路由器,这些内容在典型的基于LLM架构中应用。 MOE解释 专家混合(MoE)是一种利用多个不同子模型(或称“专家”)来提升大型语言模型质量的技术。 路由器(门网络)会选择最适合特定输入的专家: 专家混合(MoE)都起源于大型语言模型(LLM)相对基础的功能,即前馈神经网络(FFNN)。 混合专家的优势 MoE架构代表了LLM模型设计上的重大进步。
密集MoE架构 在密集混合专家(Dense MoE)层中,所有标记为{f₁, f₂, …, fₙ}的专家网络在每次前向传播过程中都会被激活,无论输入内容如何。 近年来几种代表性混合专家(MoE)模型的按时间顺序概述。 DeepSeek模型系列 DeepSeek模型系列,特别是DeepSeek-v2和DeepSeek-v3,在LLM研究社区引起了广泛关注。其卓越性能的关键因素之一是混合专家(MoE)架构的应用。 这种由MoE实现的规模扩展,使DeepSeek-v3能够在不显著增加内存或计算成本的情况下提高模型容量。 MoE架构还赋予DeepSeek-v3在训练后进行调整的灵活性。 混合专家(MoE)模型正在推动这一发展趋势,提供了更智能的扩展策略——在实现大规模参数的同时保持高效性。 MoE模型在多个技术领域都表现出色,从科学计算到日常语言处理。
MoE的重要性在MoE出现之前,传统大模型的提升思路很简单:不断增加参数。但这种方式有3个致命问题:1. 计算成本高:参数越多,训练和使用时需要的GPU资源越夸张,普通企业和个人根本用不起;2. MoE的3大核心组件一个完整的MoE模型,就像一个高效的团队,必须有3个核心角色,它们的关系和协作方式可以通过下面的流程图直观理解:流程说明:门控网络:接收输入数据,提取特征,并为每个专家计算适配分数专家筛选 比如,100 个专家的 MoE 模型,能力可能远超同参数规模的传统模型。对计算效率:因为每次只激活少量专家,MoE 的推理速度和计算成本,远低于参数规模相同的传统大模型。 MoE到底是啥呀?听着好专业,能不能用大白话讲讲?老师:特简单!MoE就是“混合专家模型”,你把它想象成一个“外卖团队”就行——有1个调度员(门控网络),还有好几个骑手(专家网络)。 输出价值:精准匹配图标“颜色+形状”双特性,分类准确率比单一专家高30%+六、总结 MoE混合专家模型核心是 “专家团队 + 智能调度”,通过稀疏激活机制解决传统大模型越大越慢、越贵的痛点