首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏周拱壹卒

    【译】混合专家(Mixture of Experts, MoE

    原文地址:Mixture of Experts (MoE)[1] 原文作者:Sebastian Raschka[2] 混合专家(Mixture of Experts, MoE)是近年来开源大模型能够拥有极高的总参数量 架构画廊[3] 《从零构建大模型》章节[4] DeepSeek V3 和 R1 中的混合专家模块与标准前馈块的对比 引自 大语言模型架构对比[5]:主要结构的变化非常直接。 混合专家层中总参数与活跃参数的差异 引自《从零构建大模型》中 MoE 材料:随着专家数量的增加,总参数的增长速度远快于每个 token 的活跃参数。 这里的“稀疏”是什么意思 MoE 层通常被描述为稀疏的,因为并非每个 token 都使用所有专家。模型很大,但每个 token 的计算是有选择性的。 例如,“共享专家”就是除了路由选择的专家外,始终保持激活的专家;还有“潜在 MoE”(latent MoE[12]),如 Nemotron 3 Super,将专家计算迁移到更小的潜在空间中。

    26610编辑于 2026-04-09
  • 来自专栏DeepHub IMBA

    使用PyTorch实现混合专家(MoE)模型

    混合专家(MoE)概念是协作智能的象征,体现了“整体大于部分之和”的说法。MoE模型汇集了各种专家模型的优势,以提供更好的预测。 它是围绕一个门控网络和一组专家网络构建的,每个专家网络都擅长特定任务的不同方面 在本文中,我将使用Pytorch来实现一个MoE模型。在具体代码之前,让我们先简单介绍一下混合专家的体系结构。 上图显示了MoE中的处理流程。混合专家模型的优点在于它的简单。通过学习复杂的问题空间以及专家在解决问题时的反应,MoE模型有助于产生比单个专家更好的解决方案。 混合专家模型在许多领域都有应用,包括推荐系统、语言建模和各种复杂的预测任务。有传言称,GPT-4是由多个专家组成的。 总结 我们测试的输出结果显示了混合专家模型的强大功能。该模型通过门控网络将各个专家模型的优势结合起来,取得了比单个专家模型更高的精度。

    2.2K10编辑于 2024-01-10
  • 来自专栏AI SPPECH

    45_混合专家模型:MoE架构详解

    2025年,混合专家模型(Mixture of Experts,MoE)已成为突破这些限制的关键技术路径。 1.2 MoE的核心组成:专家与门控 混合专家模型的架构创新在于将传统的密集前馈网络层替换为稀疏激活的专家网络集合。 结论:稀疏计算引领大模型新时代 混合专家模型(MoE)通过创新的稀疏计算架构,成功实现了参数规模与计算成本的有效解耦,为大语言模型的持续发展提供了新的技术路径。 深度解读混合专家模型(MoE):算法、演变与原理. InfoQ, 2025. DeepSeek源码解构:从MoE架构到MLA的工程化实现. CSDN博客, 2025. 【LLMs篇】混合专家模型MoE技术深度解析. CSDN博客, 2025.

    1.4K10编辑于 2025-11-12
  • DeepSeek技术架构解析:MoE混合专家模型

    混合专家架构(MoE)的突破性价值体现在其独特的计算效率优势——该架构通过动态激活专家模块的机制,可在大幅降低算力消耗的同时完成高质量预训练。 混合专家模型(MoE)本质上是一种改进版的Transformer架构,其核心创新点在于引入动态计算的模块化结构,具体可通过以下维度理解: 稀疏 MoE 层:不同于传统Transformer中每个前馈网络 尽管混合专家模型 (MoE) 提供了若干显著优势,例如更高效的预训练和与稠密模型相比更快的推理速度,但它们也伴随着一些挑战: 训练挑战: 虽然 MoE 能够实现更高效的计算预训练,但它们在微调阶段往往面临泛化能力不足的问题 例如,在混合专家模型 (MoE) 中,尽管较大的批量大小通常有利于提高性能,但当数据通过激活的专家时,实际的批量大小可能会减少。 正如之前讨论的,如果所有的令牌都被发送到只有少数几个受欢迎的专家,那么训练效率将会降低。在通常的混合专家模型 (MoE) 训练中,门控网络往往倾向于主要激活相同的几个专家

    1.5K20编辑于 2025-11-20
  • 来自专栏AI前沿技术

    大模型-混合专家系统MoE介绍

    MoE定义 将传统 Transformer 模型中的每个前馈网络(FFN) 层替换为MoE层,就构成了混合专家系统,其中MoE 层由两个核心部分组成:一个门控网络和若干数量的专家系统。 训练过程中,专家系统会逐渐学会处理特定类型的输入,从而提高模型的泛化能力和性能。 MoE系统具备的稀疏性,使得模型在训练和推理时,使用少量的计算资源,就可以完整摸型计算,而效果与稠密模型持平。 ]每个专家输入 专家计算 4个专家并行处理各自的桶 [6,128]每个专家输出 加权聚合 按路由权重从专家输出中提取有效的token,合并为原始形状 [2,5,128] 2,MoE token负载不均衡问题 在混合专家模型训练中,门控网络往往倾向于主要激活相同的几个专家,这种情况可能会自我加强,因为受欢迎的专家训练得更快,因此它们更容易被选择。 稀疏混合专家模型适用于拥有多台机器且要求高吞吐量的场景。在固定的预训练计算资源下,稀疏模型往往能够实现更优的效果,相反,在显存较少且吞吐量要求不高的场景,稠密模型则是更合适的选择。

    58510编辑于 2026-01-13
  • 来自专栏AI前沿技术

    大模型|MoE混合专家系统介绍

    模型中的每个前馈网络(FFN) 层替换为MoE层,就构成了混合专家系统,其中MoE 层由两个核心部分组成:一个路由门控网络和若干数量的专家系统。 训练过程中,专家系统会逐渐学会处理特定类型的输入,从而提高模型的泛化能力和性能。 图1,混合专家系统MoE示意。 1.2,MoE 中的稀疏性 MoE系统具备的稀疏性,使得模型在训练和推理时,使用少量的计算资源,就可以完整摸型计算,而效果与稠密模型持平。 2,MoE token负载不均衡问题 2.1,优化思路和名词介绍 在混合专家模型训练中,门控网络往往倾向于主要激活相同的几个专家,这种情况可能会自我加强,因为受欢迎的专家训练得更快,因此它们更容易被选择 稀疏混合专家模型适用于拥有多台机器且要求高吞吐量的场景。在固定的预训练计算资源下,稀疏模型往往能够实现更优的效果,相反,在显存较少且吞吐量要求不高的场景,稠密模型则是更合适的选择。

    75910编辑于 2026-01-13
  • 来自专栏IT技术订阅

    DeepSeek MoE混合专家架构的创新与突破

    随着模型规模的不断扩大,如何在有限的计算资源下实现更高的性能,成为了一个亟待解决的挑战。近年来,混合专家(Mixture of Experts,简称MoE)架构逐渐成为研究的热点。 共享专家隔离 除了细粒度专家分割,DeepSeek MoE还引入了共享专家隔离机制。在传统MoE架构中,每个专家通常独立运行,这可能导致资源的浪费和计算的冗余。 DeepSeek MoE通过设置共享专家,使得部分专家可以被多个任务共享。这种共享机制类似于共享经济中的资源共享模式,通过优化资源分配,减少了冗余计算,提高了计算资源的利用效率。 这一结果表明,DeepSeek MoE在相同参数规模下,能够以更低的计算量实现更高的性能。 计算效率的提升 DeepSeek MoE通过细粒度专家分割和共享专家隔离机制,显著提高了计算效率。 细粒度专家分割使得每个专家能够更高效地处理特定任务,减少了不必要的计算。共享专家隔离机制则进一步优化了资源分配,减少了冗余计算

    1.3K10编辑于 2025-02-05
  • 来自专栏AI前沿技术

    大模型|DeepSeek MoE 混合专家系统介绍

    MoE(Mix of Expert)混合专家系统在训练和推理时,相比于稠密模型具有明显的优势,但同样也面临训练不稳定,知识混杂和知识冗余问题。 本节在经典MoE的基础上介绍deepseek对MoE系统的优化,使其训练更稳定,计算更高效的方式。 主要内容包括: 1)经典混合专家系统的定义和两个主要问题 2)deepseek MoE系统的细粒度专家划分和共享专家隔离方案 3)两个优化方案的消融实验和负载均衡方案 1,经典MoE系统 1.1,经典MoE 经典 MoE 的运行机制可以用以下公式表示: 简单来说,公式5中的 是第l层第i个专家的门控参数,通过 Softmax 计算每个专家对 tokenT的 "匹配度";公式4中,只保留匹配度最高的 K 个专家 2,Deepseek MoE 优化方案 图1,deepseek MoE 混合专家系统优化策略 2.1,细粒度专家划分 细粒度专家划分(Fine-Grained Expert Segmentation)为解决知识混杂问题

    71811编辑于 2026-01-13
  • 来自专栏活动

    DeepSeek混合专家系统(MoE)架构深度解析

    随着数据规模和模型复杂度的不断增长,传统的单一专家模型在处理大规模、多样化的任务时逐渐暴露出局限性。为了突破这一瓶颈,混合专家系统(Mixture of Experts,MoE)应运而生。 1.1 混合专家系统的兴起 随着模型规模突破千亿参数,传统密集模型面临显存墙、训练效率瓶颈等问题。 DeepSeek MoE的研发历程展现了技术演进的三个阶段: (一)早期探索阶段 混合专家系统的思想最初源于对人类大脑神经元工作方式的模拟,不同神经元在处理不同类型的信息时发挥主导作用。 这一阶段的探索为MoE架构的形成奠定了基础。 (二)技术成型阶段 随着深度学习技术的快速发展,研究者们将深度神经网络与MoE架构相结合,形成了更强大的混合专家模型。 提高计算资源利用效率 与传统的单一专家模型相比,DeepSeek系统在训练和推理过程中可以更高效地利用计算资源。由于专家网络是并行工作的,可以通过分布式计算和并行处理来加速模型的训练和推理过程。

    3.2K00编辑于 2025-03-18
  • MoE 混合专家:让模型各展所长的 “智慧联盟”

    而 **MoE(Mixture of Experts,混合专家)** 模型则另辟蹊径,它如同一个 “智慧联盟”,将多个 “专家模型” 组合在一起,每个专家专注擅长领域,通过协作来处理复杂任务,让模型性能实现质的飞跃 稀疏激活:在实际应用中,为了提高计算效率,MoE 模型常常采用稀疏激活机制,即每次只激活少数几个专家模型参与计算,而不是让所有专家都对每个数据进行处理,这样能大幅减少计算量,同时保持模型性能。 实际应用中,还需计算损失函数,并通过反向传播更新专家模型和门控网络的参数 。 四、典型应用场景 1. 计算机视觉 在图像识别中,对于不同类型的图像(如动物、风景、人物等),MoE 模型的各个专家可以分别学习对应类型图像的特征,门控网络判断输入图像类型后,交由相应专家进行识别,提升识别效率和准确率;在图像生成任务中 MoE 混合专家模型以其独特的 “分工协作” 理念,为机器学习带来了新的思路和强大的性能提升。无论是新手探索未知领域,还是成手寻求技术突破,MoE 模型都充满了探索价值。

    56810编辑于 2025-10-14
  • 来自专栏时空探索之旅

    Time-MoE混合专家的十亿级时间序列基础模型

    /Time-MoE 关键词:时间序列预测,基础模型,混合专家系统 新智元:全球首次! 关键技术突破: 强大的混合专家架构:Time-MoE采用稀疏激活机制,在预测任务中仅激活部分网络节点,这不仅确保了高预测精度,还显著降低了计算负担,完美解决了时序大模型在推理阶段的计算瓶颈。 此外,模型引入了稀疏激活的混合专家层来取代标准Transformer模块里的FFN。公式化概括如下: 其中Mixture代表混合专家层。 如模型框架图中③所示,单个时间序列数据点可以被分配给一个或多个专家。通过选择部分专家网络来处理特定时间点的输入,模型的计算效率得到了提高。 实验表明,Time-MoE的设计在提升模型精度上是有效的。特别地,在不使用混合专家的情况下,模型的MSE会有明显的退化。 ablation 4.

    88210编辑于 2024-11-19
  • 来自专栏DeepHub IMBA

    DeepSpeed-MoE:训练更大及更复杂的混合专家网络

    在零样本评估方面,模型质量也不相上下:1.3 b +MoE-128模型所需的训练计算量与13 b密集模型大致相同,但模型质量要好得多。 1.3 b +MoE-128模型可以用13B密集模型的训练成本达到6.7B密集模型的模型质量,而训练计算量减少5倍。 为了提高MoE模型的泛化性能,通常有两种方法:(1)增加专家数量,增加内存;(2)采用Top-2专家选择,这样计算量会多33%。 但是因为计算方式不同,Residual-MoE比Top2-MoE快10%以上。 3、PR-MoE 根据上面的研究结果,论文的新体系结构在最后几层使用了更多的专家。 为了将非专家计算扩展到相同数量的gpu,可以在没有通信开销的情况下使用数据并行。

    1.3K20编辑于 2023-08-30
  • 来自专栏贾志刚-OpenCV学堂

    YOLO-Master | 混合专家MOE架构的对象检测新王者

    其核心创新是一个名为“高效稀疏专家混合模块”的技术,该系统内置不同专长的AI专家,能根据输入图像智能调度专家组合。 推理阶段则切换至硬性Top-K策略,仅激活K个专家模型(K ≪ E),从而实现实际计算稀疏化与加速效果[7]。 这种自适应机制有效解决了传统密集模型固有的计算冗余问题,使得在不同部署阶段能够高效选择专家模型。 高效专家架构:为满足实时检测场景下严格的计算约束,每个专家模块(Expert)采用深度可分离卷积作为核心构建单元,替代传统标准卷积结构。 ,原理解释看这里 大语言与多模态模型架构关键组件-混合专家(MOE)详解 总结:2026年的YOLO已经不是CNN天下,是Transformer跟大模型架构借鉴学习的新生。

    17510编辑于 2026-04-02
  • 来自专栏时空探索之旅

    Moirai-MoE: 稀疏混合专家赋能时间序列基础模型

    -1 关键词:时间序列预测,基础模型,混合专家系统 圆圆的算法笔记:Salesforce推出Moirai-MoE,新视角设计下一代时序基础模型 时序人:Salesforce 推出 Moirai-MoE, 通过这些设计,Moirai-MoE的专业化以数据驱动的方式实现,并在token级别运行。 基于稀疏混合专家的时序基础模型 Moirai-MoE构建在它的前序工作Moirai之上。 Transformer中的稀疏混合专家。 稀疏混合专家Transformer 通过用MoE层替换Transformer的每个FFN来建立专家混合层。该MoE层由个专家网络和一个门控函数组成。 每个token只激活一个专家子集,从而允许专家专注于不同模式的时间序列数据并确保计算效率。在Moirai-MoE中,作者探索了不同的门控函数。

    69900编辑于 2024-11-19
  • 《深度揭秘:利用Hugging Face Transformer库打造独特混合专家MoE)模型》

    混合专家MoE)模型作为一种创新架构,正悄然改变着大语言模型的格局,它打破传统单一模型的局限,融合多个专家模型的智慧,宛如召集了一群各有所长的智者,共同应对复杂多变的语言任务,让模型的表现更加卓越。 接下来带大家探寻如何利用Hugging Face Transformer库自定义一个独树一帜的混合专家模型。MoE模型,其设计理念独辟蹊径,核心在于突破传统模型的单一架构束缚 。 由于MoE模型包含多个专家模型,其计算资源的消耗相对较大,在部署和推理过程中可能会面临性能瓶颈。为了解决这个问题,我们可以采用一些优化技术,如模型量化、剪枝等。 剪枝则是通过去除模型中一些不重要的连接和神经元,来简化模型结构,降低计算资源的消耗 。随着技术的不断进步和应用场景的不断拓展,混合专家MoE)模型展现出了无限的潜力。 通过以上对利用Hugging Face Transformer库自定义混合专家MoE)模型的深入探讨,我们不仅了解了MoE模型的原理和优势,还掌握了构建和应用MoE模型的关键技术和方法。

    27100编辑于 2025-06-02
  • 来自专栏计算机技术-参与活动

    MOE怎样划分不同专家

    \MOE怎样划分不同专家@[TOC](目录)MOE划分不同专家以及LLM模型拆分的方法及举例如下:### MOE划分不同专家的方法ffn前馈神经网络- **独立神经元划分**: - **随机划分* 例如在LLaMA-MoE模型的构建中,采用**非重叠随机拆分法**,将FFN层中的中间神经元均匀分割成**多个子集,每个子集对应一个专家网络**。 - **聚类划分**:基于神经元的特征将其分配给不同的专家。先对神经元的特征进行**分析和提取,然后使用聚类算法,如K-Means等**,将**相似特征的神经元聚为一类**,每一类作为一个专家。 **,而其余神经元则分配给特定的专家。 **MOE专家划分的简单实现思路(以随机划分神经元为例)** - 假设我们有一个简单的前馈神经网络(FFN)层,其权重矩阵形状为`(input_size, output_size)`。

    55921编辑于 2025-01-06
  • 来自专栏量子位

    混合专家系统里根本没专家?开源MoE模型论文引网友热议

    克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 红极一时的开源MoE模型Mixtral,论文终于新鲜出炉! 而在大多数人的印象中,Mixtral里的8个专家,是分别负责处理不同领域的话题的…… 论文的结论曝光后,不少网友开始认为“专家混合”这个说法,可能不那么贴切了: 于是,针对Mixtral真实的工作机制, 但也有网友表示了不同意见: 这个问题并不根属于MoE,因为自己之前见过的MoE模型中,是发现了真·专家分工的现象的。 那么,这究竟是怎么一回事呢? 实验未发现专家按领域分布 在训练过程中,作者观察了Mixtral中是否有一些专家会针对某些特定领域进行专门化。 具体来说,作者计算了第0、15、31层在The Pile验证集的不同子集(包含不同领域的文档)上被选中的专家分布。

    36310编辑于 2024-01-11
  • 来自专栏贾志刚-OpenCV学堂

    大语言与多模态模型架构关键组件-混合专家(MOE)详解

    专家混合MoE)是一种基于Transformers构建的高级架构。其主要理念是通过激活少数称为专家的专业网络,使模型更高效。 每个专家都是一个轻量级前馈神经网络,每次只根据输入选择少数专家。 该选择由路由器处理,在推理过程中动态选择每个标记最相关的专家。 通过每个输入只使用少数专家MoE模型可以: 大幅降低计算成本, 提升整体模型容量, 并允许不同专家专注于不同类型的数据或任务。 MoE的两个主要组成部分,即专家和路由器,这些内容在典型的基于LLM架构中应用。 MOE解释 专家混合MoE)是一种利用多个不同子模型(或称“专家”)来提升大型语言模型质量的技术。 路由器(门网络)会选择最适合特定输入的专家专家混合MoE)都起源于大型语言模型(LLM)相对基础的功能,即前馈神经网络(FFNN)。 混合专家的优势 MoE架构代表了LLM模型设计上的重大进步。

    49610编辑于 2026-04-02
  • 来自专栏DeepHub IMBA

    为什么混合专家模型(MoE)如此高效:从架构原理到技术实现全解析

    近期大型语言模型的发展呈现出一个重要的架构演进趋势:混合专家(Mixture-of-Experts, MoE)架构在基础模型中的广泛应用。 密集MoE架构 在密集混合专家(Dense MoE)层中,所有标记为{f₁, f₂, …, fₙ}的专家网络在每次前向传播过程中都会被激活,无论输入内容如何。 稀疏MoE架构 密集MoE虽然能够提供较高的准确性,但伴随着显著的计算开销。稀疏MoE采用不同的策略,不同时激活所有专家,而是针对每个输入选择前k个专家。这种选择性激活机制大幅降低了计算复杂度。 近年来几种代表性混合专家MoE)模型的按时间顺序概述。 混合专家MoE)模型正在推动这一发展趋势,提供了更智能的扩展策略——在实现大规模参数的同时保持高效性。 MoE模型在多个技术领域都表现出色,从科学计算到日常语言处理。

    4.3K10编辑于 2025-08-20
  • 来自专栏新智元

    专家模型不要专家并行!微软开源MoE新路径

    继Phi家族之后,微软又开源了新的混合专家大模型——GRIN MoE。 与Phi-3.5同样的个头(16 * 3.8B),却采用了截然不同的训练方法。 此外,对于没有专家并行性的MoE计算,作者发现Megablocks包非常有用,它的grouped_GEMM内核和包装器的性能更好。 应用这些新的工程化方法避免了专家并行,也就不用丢弃token了。 尽管MoE总的参数量是密集模型的六倍多,但在实验中达到了超过80%的相对吞吐量,证实了使用GRIN MoE方法的模型具有显著的计算扩展潜力。 专家并行在前向和后向计算中有两个all-to-all通信开销,而张量并行在前向和后向计算中有两个all-reduce通信开销。 常见的负载均衡损失定义为: 其中α是超参数,n是专家数量,fi是调度给专家的token比例。 传统方法在本地不同的GPU上计算fi,因此负载均衡损失将调节本地专家负载均衡并缓解token丢弃。

    49000编辑于 2025-02-14
领券