首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI SPPECH

    45_混合专家模型:MoE架构详解

    目录 目录 ├── 引言:从密集到稀疏的模型架构革命 ├── 第一章:MoE架构基础原理 │ ├── 1.1 密集模型的局限性 │ ├── 1.2 MoE的核心组成:专家与门控 │ └── )架构,在预训练和后训练阶段都使用了Dropless训练策略,实现了超大规模MoE架构在模型效果与效率之间的最佳平衡。 核心技术指标: 参数规模:7180亿 专家数量:256个路由专家 激活策略:每个任务激活8个专家 上下文长度:支持128k长序列处理,可处理17万字上下文 训练数据量:超过18TB 架构创新: DSSN 80B 512个专家 激活10个路由专家+1个共享专家 自适应专家分配 Meta Mixtral 8x7B 46.7B 8个专家 每个token激活2个专家 稀疏门控混合专家 Google Switch 从模型规模和专家数量的关系来看,我们可以观察到一个趋势: 较小的模型(如Mixtral 8x7B)通常使用较少的专家数量(8个) 中等规模的模型(如Qwen3-Next-80B-A3B)使用中等数量的专家

    1.6K10编辑于 2025-11-12
  • DeepSeek技术架构解析:MoE混合专家模型

    混合专家架构(MoE)的突破性价值体现在其独特的计算效率优势——该架构通过动态激活专家模块的机制,可在大幅降低算力消耗的同时完成高质量预训练。 混合专家模型(MoE)本质上是一种改进版的Transformer架构,其核心创新点在于引入动态计算的模块化结构,具体可通过以下维度理解: 稀疏 MoE 层:不同于传统Transformer中每个前馈网络 (FFN)层采用固定结构的密集计算方式,MoE通过拆分-重组架构实现计算稀疏化。 理论参数量陷阱:以Mixtral 8x7B为例,其真实参数量=专家非共享参数(8专家x FFN参数)+共享参数(注意力模块等)。 3.3.3 阶段3:开放生态(2023至今) 开源引爆点:Mistral AI的Mixtral 8x7B(2023.12)首次在消费级GPU集群证明MoE的高性价比 多模态融合:Google的V-MoE

    1.7K20编辑于 2025-11-20
  • -DeepSeek技术解析:MoE架构实现与代码实战

    以下是一篇结合DeepSeek技术解析与代码示例的技术文章,重点展示其核心算法实现与落地应用:DeepSeek技术解析:MoE架构实现与代码实战作为中国AI领域的创新代表,DeepSeek在混合专家模型 DeepSeek的 「专家位置感知调度」 算法通过:预分析计算图,将高频共现的专家分配到同物理设备采用RDMA网络传输协议,降低跨节点通信延迟一、MoE架构设计原理DeepSeek的稀疏化MoE架构通过动态路由机制 nnimport torch.nn.functional as Fclass DeepSeekMoE(nn.Module): def __init__(self, dim=768, num_experts=8, ", "deepseek_moe_quant.onnx", weight_type=QuantType.QInt8)# 推理加速import 其MoE架构在保持模型性能的同时,通过动态路由、稀疏计算等技术突破了大模型落地的算力瓶颈,为行业智能化转型提供了可复用的技术范式。未来应用deepseek将更加广泛

    1.5K10编辑于 2025-03-15
  • 来自专栏深度学习自然语言处理

    陈丹琦团队提出最新MoE架构Lory

    SMEAR: 之前的研究提出了一种完全可微分的 MoE 架构 SMEAR,它在参数空间中软合并专家,但只在分类任务的微调中展示了有效性。 Lory: 本文提出的 Lory 是首个将此类完全可微分的 MoE 架构扩展到自回归语言模型预训练的方法。 引言 (Introduction) MoE 架构: 介绍了 MoE 架构及其在模型大小扩展中的作用,同时指出了训练路由网络的挑战。 通过专家合并的完全可微分 MoE 架构: 讨论了如何通过在参数空间中计算所有专家 FFN 的加权平均值来创建“合并 FFN”,从而实现 MoE 架构的完全可微分性。 专家专门化: 展示了 0.3B/8E 模型在不同领域上的专家路由权重。 文章通过实验验证了 Lory 模型在自回归语言模型预训练中的有效性,并展示了其在多个下游任务中的性能提升。

    79610编辑于 2024-05-11
  • 来自专栏IT技术订阅

    DeepSeek MoE:混合专家架构的创新与突破

    近年来,混合专家(Mixture of Experts,简称MoE架构逐渐成为研究的热点。DeepSeek作为一家在人工智能领域崭露头角的公司,其推出的DeepSeek MoE架构引发了广泛关注。 本文将深入探讨DeepSeek MoE架构的创新之处及其在性能和效率上的突破。 MoE架构的历史与背景 MoE架构最早可以追溯到1991年,最初被应用于贝叶斯网络中的专家组合。 DeepSeek MoE架构的创新 尽管MoE架构在理论上具有显著的优势,但在实际应用中,如何实现高效的专家分配和负载均衡仍然是一个关键问题。 DeepSeek在2024年1月推出的DeepSeek MoE架构,通过一系列创新设计,解决了传统MoE架构中的痛点。 细粒度专家分割 DeepSeek MoE架构的一个重要创新是细粒度专家分割。 DeepSeek MoE的性能提升 DeepSeek MoE架构的创新设计,使其在性能和效率上取得了显著的突破。

    1.3K10编辑于 2025-02-05
  • 来自专栏深度学习自然语言处理

    最强MOE开源:Mixtral 8x22B 发布!

    Mistral 7B、Mixtral 8x7B 和 Mixtral 8x22B 都属于与其它开放模型相比高度高效的模型家族。 无与伦比的开放性能以下是在标准行业基准上的开放模型比较。 推理和知识Mixtral 8x22B 针对推理进行了优化。 多语言能力Mixtral 8x22B 具有原生的多语言能力。 图4:在领先的开放模型上的流行编程和数学基准测试性能:HumanEval pass@1、MBPP pass@1、GSM8K maj@1(5次射击)、GSM8K maj@88次射击)和 Math maj 今天发布的 Mixtral 8x22B 的指导版本展示了更好的数学性能,在 GSM8K maj@8 上得分为90.8%,在 Math maj@4 上得分为44.6%。

    1.5K10编辑于 2024-04-19
  • 《DeepSeek MoE架构下,动态专家路由优化全解析》

    在人工智能飞速发展的当下,模型架构的创新与优化始终是推动技术进步的关键力量。DeepSeek的混合专家模型(MoE架构,以其独特的设计理念和卓越的性能表现,在大模型领域崭露头角。 MoE架构:专家协同的智慧矩阵MoE架构的设计灵感,源于对人类分工协作模式的深刻洞察。想象一个庞大的科研项目,不同领域的专家凭借各自专长,共同攻克难题。 MoE架构亦是如此,它由多个专门处理特定子任务的“专家”模型组成,宛如一个专家智囊团。每个专家都经过精心“训练”,在其擅长的领域内表现出色。 动态专家路由:模型高效运转的引擎动态专家路由,是MoE架构实现高效性的关键机制,也是优化的重点所在。 优化带来的变革与展望通过动态专家路由优化,DeepSeek的MoE架构在多个方面实现了质的飞跃。在计算资源利用上,效率大幅提升,使得模型能够在有限的硬件条件下处理更复杂的任务。

    60810编辑于 2025-03-07
  • 来自专栏活动

    DeepSeek混合专家系统(MoE架构深度解析

    DeepSeek作为基于MoE架构的先进系统,在处理复杂任务时展现出了卓越的性能和灵活性,为人工智能技术的发展和应用开辟了新的道路。 这一阶段的探索为MoE架构的形成奠定了基础。 (二)技术成型阶段 随着深度学习技术的快速发展,研究者们将深度神经网络与MoE架构相结合,形成了更强大的混合专家模型。 (三)应用拓展阶段 DeepSeek等基于MoE架构的系统开始在众多实际应用中得到广泛部署和测试。在自然语言处理、计算机视觉、语音识别等领域,MoE架构展现出了其在处理复杂任务时的优势。 + 8*256*2=0.1M/layer 核心优势对比: 指标 密集模型 DeepSeek MoE 改进倍数 单层参数量 5.2M 0.1M 52x ↓ 激活参数量 100% 核心架构设计 GLaM 模型架构。每个 MoE 层(底部块)都与一个 Transformer 层(上层块)交错。

    3.4K00编辑于 2025-03-18
  • LLM架构进化管窥:从管道-过滤器到MoE

    【LLM架构管窥 ◆ 系列小文】旨在快速盘点LLM架构特点、特别是局限性,为后续【基于SDD的AI编程最佳实践】提供必要的认知准备。本文是【LLM架构管窥 ◆ 系列小文】的第1篇。 四、GPT-4及后续版本的MoE架构GPT-4及后续很多LLM都采用了MoE架构(混合专家模型),可看作是管道-过滤器架构的升级版。 MoE架构的创新是把“前馈网络过滤器”升级成了“多个专家过滤器+一个门控过滤器”的组合。核心思路是“仅按需load和run专家模块”,而早期Chat-GPT是“全量加载与运行”。 从管道-过滤器的角度看,MoE架构并没有抛弃原有核心逻辑,而是在“过滤器设计”上做了优化:把单一的“前馈网络过滤器”拆分成多个专用“专家过滤器”,并新增“门控过滤器”优化数据流转路径,让整个管道的处理更精准 这种架构升级,也让LLM的能力实现了质的飞跃。五、MoE架构的意义一是效率高了,对硬件的要求低了。二是能力更全面。能同时适配更多类型的语言任务,比如既能做逻辑推理,又能写文案、编代码。三是扩展性更强。

    48521编辑于 2025-12-30
  • 来自专栏算法一只狗

    MoE(Mixture-of-Experts)大模型架构的优势是什么?

    MOE这个架构就是可以很好的省钱~就拿最新发布的deepseek-V3开源模型来说,它里面就用到了MOE架构。 在其MOE架构中,引入了路由专家 (Routed Experts) 和共享专家 (Shared Experts) 。主要是用来激活那些参数需要被更新。路由专家中主要是用来选择参数进行激活。 那么最后,他们基于这个架构,训练成本大幅下降。DeepSeek V3的训练总共才用了不到280万个GPU小时,而Llama 3 405B却用了3080万GPU小时。 它内在的MOE架构,确实让人看到了更多遐想的空间。说不定以后大模型的训练也不一定要这么费钱,也能做出很好的效果出来

    1.2K20编辑于 2025-01-01
  • 《Google Gemini 1.5 Pro:MoE架构如何重塑AI性能与效率》

    尤其是其采用的混合专家系统(MoE架构扩展,为模型性能与推理效率带来了革命性的提升,在AI领域掀起了一阵讨论热潮。 比如在处理文本时,如果是医学相关的内容,MoE架构会快速调配擅长医学知识理解的专家神经网络;若是科技类文本,对应的科技领域专家神经网络就会被激活。 在传统的模型架构中,无论输入任务的难易程度,整个模型都需要参与计算,这无疑是对计算资源的一种浪费。而MoE架构就像一个精明的资源管理者,根据任务需求动态分配计算资源。 由于MoE架构能够快速定位到最适合处理任务的专家神经网络,避免了传统模型在大量参数中进行无差别搜索的过程,从而显著提升了推理速度。 随着技术的不断进步和优化,MoE架构有望在更多领域得到应用和推广。

    51610编辑于 2025-04-22
  • 来自专栏大模型系列

    万亿参数震撼发布:DeepSeek V4 MoE架构深度解析

    三、核心技术深度拆解3.1MoE(混合专家)架构:万亿参数的基石MoE是实现超大规模模型的关键技术。 V4-Flash:作为轻量化版本,同样采用MoE架构,但总参数和专家数量更少,激活参数仅为13B,专为高频、低成本场景设计。优势:知识容量:庞大的总参数量意味着模型可以编码更广泛的世界知识。 MoE架构的工程挑战与DeepSeek的解决方案尽管MoE概念简单,但在工程实践中面临巨大挑战:负载均衡:如何确保所有专家都被公平地使用,避免部分专家“过载”而其他专家“闲置”? 研究发现,MoE与Engram之间存在一条“U形scalinglaw”,意味着未来需要在计算与静态记忆之间找到最优资源配比。这个思路可能成为稀疏架构的下一条主流路线。 首发平台:华为昇腾910B/950PR芯片,并深度集成CANN(ComputeArchitectureforNeuralNetworks)异构计算架构

    40830编辑于 2026-05-14
  • 某机构Blackwell架构MoE模型推理性能飞跃

    这个大规模纵向扩展域针对基于稀疏MoE架构的模型进行了优化,这类模型需要频繁地在专家之间交换数据以生成令牌。 这些架构创新使某机构GB200 NVL72能够在最新的开放模型上提供行业领先的性能,包括DeepSeek-R1——一个拥有6710亿参数的稀疏MoE模型,每个令牌激活370亿个参数。 图3: HGX B200上,使用1K/1K序列长度和聚合服务,FP8(无MTP)、FP8(有MTP)和NVFP4(有MTP)的吞吐量与交互性曲线对比。 图4: HGX B200上,使用8K/1K序列长度和聚合服务,FP8(无MTP)、FP8(有MTP)和NVFP4(有MTP)的吞吐量与交互性曲线对比。 图5: HGX B200上,使用1K/8K序列长度和聚合服务,FP8(无MTP)、FP8(有MTP)和NVFP4(有MTP)的吞吐量与交互性曲线对比。

    13610编辑于 2026-05-02
  • 来自专栏贾志刚-OpenCV学堂

    YOLO-Master | 混合专家MOE架构的对象检测新王者

    该系统架构还可扩展至图像分类与实例分割任务,在ImageNet数据集上达到了76.6%的Top-1准确率。 高效专家架构:为满足实时检测场景下严格的计算约束,每个专家模块(Expert)采用深度可分离卷积作为核心构建单元,替代传统标准卷积结构。 消融实验数据 ES-MoE消融证明 论文 https://arxiv.org/pdf/2512.23273 代码库 https://github.com/isLinXu/YOLO-Master 什么MoE ,原理解释看这里 大语言与多模态模型架构关键组件-混合专家(MOE)详解 总结:2026年的YOLO已经不是CNN天下,是Transformer跟大模型架构借鉴学习的新生。 2026掌握Transformer与视觉语言模型开发技能,一秒理解MoE的本质

    23410编辑于 2026-04-02
  • 来自专栏AI SPPECH

    13:MoE架构如何让你的Agentic系统成本降低50%?

    MoE架构概述 1.1 什么是MoE架构 1.2 MoE架构的核心组件 1.3 MoE架构的优势 2. MoE架构在Agentic系统中的应用 3.1 Agentic系统的计算挑战 3.2 MoE架构的优势 3.3 架构设计 4. 实际案例 7.1 案例一:智能客服系统 7.2 案例二:金融智能助手 7.3 案例三:医疗辅助系统 8. MoE架构概述 1.1 什么是MoE架构 MoE(Mixture of Experts)架构是一种深度学习模型设计方法,它通过集成多个专业的子模型(专家)来提高模型性能和效率。 MoE架构的效果 持续优化:根据实际使用情况不断优化MoE架构 生态参与:积极参与MoE相关的开源项目和社区 战略规划:将MoE架构纳入长期技术战略 总结:MoE架构通过创新的专家分工和门控机制,为Agentic

    23710编辑于 2026-04-03
  • 来自专栏快乐阿超

    trace.moe

    ——太宰治《人间失格》 trace.moe:通过截图识别番剧的开源神器 trace.moe 是一个开源的番剧识别服务,通过上传任意一帧截图,即可快速识别出该画面来自哪一部动画、哪一集,甚至精确到具体的时间点 一、项目简介 trace.moe 由 @soruly 开发,提供完整的后端识别引擎、Web API 接口以及前端页面,支持本地部署和线上使用。 该项目已部署于 https://trace.moe,开放免费使用,也支持自行搭建私有服务。 二、核心功能 以图搜番:通过上传图片识别动画出处,返回标题、集数、时间戳、相似度等。 四、本地部署方式 trace.moe 提供 Docker 支持,可快速本地部署: git clone https://github.com/soruly/trace.moe.git cd trace.moe 八、结语 trace.moe 是“以图识番”领域的代表项目,简单高效、开放易用。无论是动漫站点、二次元工具、Bot 开发者,还是普通动画爱好者,都能从中获益。

    7K10编辑于 2025-04-05
  • 来自专栏人工智能

    DeepSeek v3 的 MoE 模型架构与激活参数解析

    在人工智能和深度学习的研究中,模型的规模和架构决定了它的能力与潜力。 MoE 模型的特性MoE 是 Mixture of Experts 的缩写,意为专家混合模型。 它是一种特殊的神经网络架构,通过引入多个专家网络(sub-models),仅在需要时激活其中的部分专家来参与计算,从而显著提升模型的计算效率。 传统的神经网络架构可能会利用全部参数来完成每一步翻译。而在 MoE 模型中,系统会智能地选择最适合的专家模块来处理特定任务。 return torch.sum(gate_scores.unsqueeze(2) * expert_outputs, dim=1)# 模型实例化input_dim = 16output_dim = 8num_experts

    3.5K11编辑于 2025-01-12
  • 来自专栏机器之心

    谷歌Gemini1.5火速上线:MoE架构,100万上下文

    Gemini 1.5 建立在谷歌基础模型开发和基础设施的研究与工程创新的基础上,包括通过新的专家混合 (MoE) 架构使 Gemini 1.5 的训练和服务更加高效。 领先基础模型的上下文长度 高效架构 Gemini 1.5 建立在谷歌对 Transformer 和 MoE 架构的领先研究之上。 传统 Transformer 充当一个大型神经网络,而 MoE 模型则分为更小的 “专家” 神经网络。 根据给定输入的类型,MoE 模型学会选择性地仅激活其神经网络中最相关的专家路径。 通过稀疏门控 MoE、GShard-Transformer、Switch-Transformer、M4 等研究,Google 一直是深度学习 MoE 技术的早期采用者和先驱。 谷歌在模型架构方面的最新创新使 Gemini 1.5 能够更快地学习复杂任务并保持质量,同时更高效地训练和服务。

    64810编辑于 2024-02-26
  • 来自专栏贾志刚-OpenCV学堂

    大语言与多模态模型架构关键组件-混合专家(MOE)详解

    在查看最新发布的大型语言模型(LLM)时,你经常会在标题中看到“MoE”。这个“MoE”代表什么?为什么这么多大型语言模型在使用它? 专家混合(MoE)是一种基于Transformers构建的高级架构。其主要理念是通过激活少数称为专家的专业网络,使模型更高效。 每个专家都是一个轻量级前馈神经网络,每次只根据输入选择少数专家。 MoE的两个主要组成部分,即专家和路由器,这些内容在典型的基于LLM架构中应用。 MOE解释 专家混合(MoE)是一种利用多个不同子模型(或称“专家”)来提升大型语言模型质量的技术。 请记住,标准的纯解码器变换器架构在层规范化后应用FFNN: 基于MOE之后的解码器块的可视化,它现在会包含更多的FFNN(每个专家一个) 专家选择使用路由器完成,路由器类似于多类分类器。 混合专家的优势 MoE架构代表了LLM模型设计上的重大进步。

    61310编辑于 2026-04-02
  • 来自专栏DeepHub IMBA

    MoR vs MoE架构对比:更少参数、更快推理的大模型新选择

    本文将深入分析递归混合(MoR)与专家混合(MoE)两种架构在大语言模型中的技术特性差异,探讨各自的适用场景和实现机制,并从架构设计、参数效率、推理性能等多个维度进行全面对比。 MoE架构并非即插即用的解决方案,需要针对特定硬件环境进行深度优化。 递归混合架构有效避免了上述复杂性问题。 部署MoR架构无需超算集群支持。 从推理延迟角度分析,MoR架构明显优于MoE架构。 训练稳定性与收敛特性 专家混合架构在训练过程中容易出现专家崩溃现象,这是该架构面临的主要技术挑战之一。 该架构并非即插即用解决方案,大多数开源深度学习框架无法提供开箱即用的大规模MoE支持。对于拥有顶级基础设施的科技公司,MoE架构展现出良好的性能表现。 该架构在模型微调、少样本学习以及边缘计算或消费级硬件部署方面具有明显优势。此外,MoR架构具备良好的缩放特性,这是MoE架构的薄弱环节。

    57610编辑于 2025-08-20
领券