搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI SPPECH
45_混合专家模型：MoE架构详解
本文将深入剖析MoE架构的技术原理，重点推导路由机制的数学基础和稀疏激活的优化方法，同时结合2025年最新的MoE模型实现（如华为盘古Ultra和DeepSeek V3），全面展示这一革命性架构在大语言模型领域的应用与突破目录目录 ├── 引言：从密集到稀疏的模型架构革命 ├── 第一章：MoE架构基础原理 │ ├── 1.1 密集模型的局限性 │ ├── 1.2 MoE的核心组成：专家与门控 │ └── │ ├── 5.1 华为盘古Ultra MoE │ ├── 5.2 DeepSeek V3架构解析 │ └── 5.3 其他主流MoE模型比较 ├── 第六章：MoE模型的工程实现挑战 │ ）架构，在预训练和后训练阶段都使用了Dropless训练策略，实现了超大规模MoE架构在模型效果与效率之间的最佳平衡。通信效率：在分布式场景下，节点间通信是性能瓶颈第七章：MoE架构的未来发展趋势 7.1 技术演进方向展望未来，MoE架构的技术演进将沿着以下方向发展：自适应专家分配：根据输入复杂度动态调整激活专家数量
1.6K10编辑于 2025-11-12
DeepSeek技术架构解析：MoE混合专家模型
混合专家架构(MoE)的突破性价值体现在其独特的计算效率优势——该架构通过动态激活专家模块的机制，可在大幅降低算力消耗的同时完成高质量预训练。混合专家模型(MoE)本质上是一种改进版的Transformer架构，其核心创新点在于引入动态计算的模块化结构，具体可通过以下维度理解：稀疏 MoE 层：不同于传统Transformer中每个前馈网络 (FFN)层采用固定结构的密集计算方式，MoE通过拆分-重组架构实现计算稀疏化。推理挑战:1）内存黑洞效应 2）计算量子隧穿现象当每个token激活2个专家时，理论计算量=2x7B部分 + 共享7B部分，等效于约（7x2+7x0.35）=16.45B FLOPs。 Outrageously Large Neural Network 论文中的 MoE layer 3.3.2 阶段2：工程攻坚（2021-2023）内存优化：DeepSpeed-MoE提出专家分片存储
1.7K20编辑于 2025-11-20
-DeepSeek技术解析：MoE架构实现与代码实战
以下是一篇结合DeepSeek技术解析与代码示例的技术文章，重点展示其核心算法实现与落地应用：DeepSeek技术解析：MoE架构实现与代码实战作为中国AI领域的创新代表，DeepSeek在混合专家模型（Mixture of Experts, MoE）领域取得重要突破。 DeepSeek的「专家位置感知调度」算法通过：预分析计算图，将高频共现的专家分配到同物理设备采用RDMA网络传输协议，降低跨节点通信延迟一、MoE架构设计原理DeepSeek的稀疏化MoE架构通过动态路由机制 torch.nn.functional as Fclass DeepSeekMoE(nn.Module): def __init__(self, dim=768, num_experts=8, top_k=2) 其MoE架构在保持模型性能的同时，通过动态路由、稀疏计算等技术突破了大模型落地的算力瓶颈，为行业智能化转型提供了可复用的技术范式。未来应用deepseek将更加广泛
1.5K10编辑于 2025-03-15
来自专栏深度学习自然语言处理
陈丹琦团队提出最新MoE架构Lory
SMEAR: 之前的研究提出了一种完全可微分的 MoE 架构 SMEAR，它在参数空间中软合并专家，但只在分类任务的微调中展示了有效性。 Lory: 本文提出的 Lory 是首个将此类完全可微分的 MoE 架构扩展到自回归语言模型预训练的方法。引言 (Introduction) MoE 架构: 介绍了 MoE 架构及其在模型大小扩展中的作用，同时指出了训练路由网络的挑战。通过专家合并的完全可微分 MoE 架构: 讨论了如何通过在参数空间中计算所有专家 FFN 的加权平均值来创建“合并 FFN”，从而实现 MoE 架构的完全可微分性。计算开销: 分析了 MoE 层与密集层相比的计算开销。数据批处理细节: 描述了相似性基础数据批处理的具体实现方法。模型配置: 列出了实验中使用的模型架构和大小。
79610编辑于 2024-05-11
来自专栏IT技术订阅
DeepSeek MoE：混合专家架构的创新与突破
近年来，混合专家（Mixture of Experts，简称MoE）架构逐渐成为研究的热点。DeepSeek作为一家在人工智能领域崭露头角的公司，其推出的DeepSeek MoE架构引发了广泛关注。本文将深入探讨DeepSeek MoE架构的创新之处及其在性能和效率上的突破。 MoE架构的历史与背景 MoE架构最早可以追溯到1991年，最初被应用于贝叶斯网络中的专家组合。 DeepSeek MoE架构的创新尽管MoE架构在理论上具有显著的优势，但在实际应用中，如何实现高效的专家分配和负载均衡仍然是一个关键问题。 DeepSeek在2024年1月推出的DeepSeek MoE架构，通过一系列创新设计，解决了传统MoE架构中的痛点。细粒度专家分割 DeepSeek MoE架构的一个重要创新是细粒度专家分割。根据DeepSeek的技术报告，DeepSeek MoE 16B在2万亿token上训练，仅需要大约40%的计算量就能达到与DeepSeek 7B和LLaMA2 7B相当的性能。
1.3K10编辑于 2025-02-05
《DeepSeek MoE架构下，动态专家路由优化全解析》
在人工智能飞速发展的当下，模型架构的创新与优化始终是推动技术进步的关键力量。DeepSeek的混合专家模型（MoE）架构，以其独特的设计理念和卓越的性能表现，在大模型领域崭露头角。 MoE架构：专家协同的智慧矩阵MoE架构的设计灵感，源于对人类分工协作模式的深刻洞察。想象一个庞大的科研项目，不同领域的专家凭借各自专长，共同攻克难题。 MoE架构亦是如此，它由多个专门处理特定子任务的“专家”模型组成，宛如一个专家智囊团。每个专家都经过精心“训练”，在其擅长的领域内表现出色。动态专家路由：模型高效运转的引擎动态专家路由，是MoE架构实现高效性的关键机制，也是优化的重点所在。 2. 自适应调整机制：任务和数据是不断变化的，为了适应这种变化，动态专家路由需要具备自适应调整能力。当遇到新的数据分布或任务类型时，门控网络能够根据实时反馈，动态调整专家选择策略。
60810编辑于 2025-03-07
来自专栏活动
DeepSeek混合专家系统（MoE）架构深度解析
DeepSeek作为基于MoE架构的先进系统，在处理复杂任务时展现出了卓越的性能和灵活性，为人工智能技术的发展和应用开辟了新的道路。这一阶段的探索为MoE架构的形成奠定了基础。（二）技术成型阶段随着深度学习技术的快速发展，研究者们将深度神经网络与MoE架构相结合，形成了更强大的混合专家模型。（三）应用拓展阶段 DeepSeek等基于MoE架构的系统开始在众多实际应用中得到广泛部署和测试。在自然语言处理、计算机视觉、语音识别等领域，MoE架构展现出了其在处理复杂任务时的优势。核心架构设计 GLaM 模型架构。每个 MoE 层（底部块）都与一个 Transformer 层（上层块）交错。与传统的单一专家模型不同，MoE架构允许模型在不同情况下调用不同的专家，从而更灵活地适应多样化的输入数据和任务需求。
3.4K00编辑于 2025-03-18
LLM架构进化管窥：从管道-过滤器到MoE
【LLM架构管窥 ◆ 系列小文】旨在快速盘点LLM架构特点、特别是局限性，为后续【基于SDD的AI编程最佳实践】提供必要的认知准备。本文是【LLM架构管窥 ◆ 系列小文】的第1篇。四、GPT-4及后续版本的MoE架构GPT-4及后续很多LLM都采用了MoE架构（混合专家模型），可看作是管道-过滤器架构的升级版。 MoE架构的创新是把“前馈网络过滤器”升级成了“多个专家过滤器+一个门控过滤器”的组合。核心思路是“仅按需load和run专家模块”，而早期Chat-GPT是“全量加载与运行”。从管道-过滤器的角度看，MoE架构并没有抛弃原有核心逻辑，而是在“过滤器设计”上做了优化：把单一的“前馈网络过滤器”拆分成多个专用“专家过滤器”，并新增“门控过滤器”优化数据流转路径，让整个管道的处理更精准这种架构升级，也让LLM的能力实现了质的飞跃。五、MoE架构的意义一是效率高了，对硬件的要求低了。二是能力更全面。能同时适配更多类型的语言任务，比如既能做逻辑推理，又能写文案、编代码。三是扩展性更强。
48521编辑于 2025-12-30
来自专栏算法一只狗
MoE(Mixture-of-Experts)大模型架构的优势是什么？
MOE这个架构就是可以很好的省钱~就拿最新发布的deepseek-V3开源模型来说，它里面就用到了MOE架构。在其MOE架构中，引入了路由专家 (Routed Experts) 和共享专家 (Shared Experts) 。主要是用来激活那些参数需要被更新。路由专家中主要是用来选择参数进行激活。那么最后，他们基于这个架构，训练成本大幅下降。DeepSeek V3的训练总共才用了不到280万个GPU小时，而Llama 3 405B却用了3080万GPU小时。 H800 GPU 的租赁价格假定为每小时 2 美元。训练分为三个阶段：预训练、上下文扩展和后期训练：预训练：使用了 2664K（266.4 万）GPU 小时，成本约为 532.8 万美元。它内在的MOE架构，确实让人看到了更多遐想的空间。说不定以后大模型的训练也不一定要这么费钱，也能做出很好的效果出来
1.2K20编辑于 2025-01-01
《Google Gemini 1.5 Pro：MoE架构如何重塑AI性能与效率》
尤其是其采用的混合专家系统（MoE）架构扩展，为模型性能与推理效率带来了革命性的提升，在AI领域掀起了一阵讨论热潮。比如在处理文本时，如果是医学相关的内容，MoE架构会快速调配擅长医学知识理解的专家神经网络；若是科技类文本，对应的科技领域专家神经网络就会被激活。在传统的模型架构中，无论输入任务的难易程度，整个模型都需要参与计算，这无疑是对计算资源的一种浪费。而MoE架构就像一个精明的资源管理者，根据任务需求动态分配计算资源。由于MoE架构能够快速定位到最适合处理任务的专家神经网络，避免了传统模型在大量参数中进行无差别搜索的过程，从而显著提升了推理速度。随着技术的不断进步和优化，MoE架构有望在更多领域得到应用和推广。
51610编辑于 2025-04-22
来自专栏大模型系列
万亿参数震撼发布：DeepSeek V4 MoE架构深度解析
三、核心技术深度拆解3.1MoE（混合专家）架构：万亿参数的基石MoE是实现超大规模模型的关键技术。 V4-Flash：作为轻量化版本，同样采用MoE架构，但总参数和专家数量更少，激活参数仅为13B，专为高频、低成本场景设计。优势：知识容量：庞大的总参数量意味着模型可以编码更广泛的世界知识。 MoE架构的工程挑战与DeepSeek的解决方案尽管MoE概念简单，但在工程实践中面临巨大挑战：负载均衡：如何确保所有专家都被公平地使用，避免部分专家“过载”而其他专家“闲置”？研究发现，MoE与Engram之间存在一条“U形scalinglaw”，意味着未来需要在计算与静态记忆之间找到最优资源配比。这个思路可能成为稀疏架构的下一条主流路线。首发平台：华为昇腾910B/950PR芯片，并深度集成CANN（ComputeArchitectureforNeuralNetworks）异构计算架构。
40830编辑于 2026-05-14
某机构Blackwell架构下MoE模型推理性能飞跃
这个大规模纵向扩展域针对基于稀疏MoE架构的模型进行了优化，这类模型需要频繁地在专家之间交换数据以生成令牌。 Blackwell架构还集成了对NVFP4数据格式的硬件加速，这是一种某机构设计的4位浮点格式，与其他FP4格式相比能更好地保持精度。这些架构创新使某机构GB200 NVL72能够在最新的开放模型上提供行业领先的性能，包括DeepSeek-R1——一个拥有6710亿参数的稀疏MoE模型，每个令牌激活370亿个参数。图2：使用最新某机构TensorRT-LLM软件，GB200 NVL72上使用1K/1K序列长度的DeepSeek-R1令牌吞吐量大幅提升。其PyTorch原生架构允许开发者试验运行时或扩展功能。这些优化现已包含在最新版本的TensorRT-LLM中。
13610编辑于 2026-05-02
来自专栏贾志刚-OpenCV学堂
YOLO-Master | 混合专家MOE架构的对象检测新王者
该系统架构还可扩展至图像分类与实例分割任务，在ImageNet数据集上达到了76.6%的Top-1准确率。高效专家架构：为满足实时检测场景下严格的计算约束，每个专家模块（Expert）采用深度可分离卷积作为核心构建单元，替代传统标准卷积结构。消融实验数据 ES-MoE消融证明论文 https://arxiv.org/pdf/2512.23273 代码库 https://github.com/isLinXu/YOLO-Master 什么MoE ，原理解释看这里大语言与多模态模型架构关键组件-混合专家(MOE)详解总结：2026年的YOLO已经不是CNN天下，是Transformer跟大模型架构借鉴学习的新生。 2026掌握Transformer与视觉语言模型开发技能，一秒理解MoE的本质
23410编辑于 2026-04-02
来自专栏AI SPPECH
13：MoE架构如何让你的Agentic系统成本降低50%？
MoE架构概述 1.1 什么是MoE架构 1.2 MoE架构的核心组件 1.3 MoE架构的优势 2. MoE架构在Agentic系统中的应用 3.1 Agentic系统的计算挑战 3.2 MoE架构的优势 3.3 架构设计 4. MoE架构概述 1.1 什么是MoE架构 MoE（Mixture of Experts）架构是一种深度学习模型设计方法，它通过集成多个专业的子模型（专家）来提高模型性能和效率。 K值激活专家比例计算成本性能损失 1 1/K 最低较大 2 2/K 中等较小 4 4/K 较高最小 2.3 专家设计专家网络通常是相同架构的小型神经网络，但可以针对不同的任务或数据类型进行专门化 MoE架构的效果持续优化：根据实际使用情况不断优化MoE架构生态参与：积极参与MoE相关的开源项目和社区战略规划：将MoE架构纳入长期技术战略总结：MoE架构通过创新的专家分工和门控机制，为Agentic
23710编辑于 2026-04-03
来自专栏快乐阿超
trace.moe
——太宰治《人间失格》 trace.moe：通过截图识别番剧的开源神器 trace.moe 是一个开源的番剧识别服务，通过上传任意一帧截图，即可快速识别出该画面来自哪一部动画、哪一集，甚至精确到具体的时间点一、项目简介 trace.moe 由 @soruly 开发，提供完整的后端识别引擎、Web API 接口以及前端页面，支持本地部署和线上使用。该项目已部署于 https://trace.moe，开放免费使用，也支持自行搭建私有服务。二、核心功能以图搜番：通过上传图片识别动画出处，返回标题、集数、时间戳、相似度等。四、本地部署方式 trace.moe 提供 Docker 支持，可快速本地部署： git clone https://github.com/soruly/trace.moe.git cd trace.moe 八、结语 trace.moe 是“以图识番”领域的代表项目，简单高效、开放易用。无论是动漫站点、二次元工具、Bot 开发者，还是普通动画爱好者，都能从中获益。
7K10编辑于 2025-04-05
来自专栏人工智能
DeepSeek v3 的 MoE 模型架构与激活参数解析
在人工智能和深度学习的研究中，模型的规模和架构决定了它的能力与潜力。它是一种特殊的神经网络架构，通过引入多个专家网络（sub-models），仅在需要时激活其中的部分专家来参与计算，从而显著提升模型的计算效率。传统的神经网络架构可能会利用全部参数来完成每一步翻译。而在 MoE 模型中，系统会智能地选择最适合的专家模块来处理特定任务。在一次具体任务中，模型可能根据输入的特点只选择 2 个专家模块进行计算，那么激活的参数量就是 2 × 67.1B = 134.2B。假设有一个庞大的专家团队，包括医生、工程师、法律顾问等，处理问题时我们只咨询与问题最相关的 1-2 名专家，而不是同时向所有人寻求意见。
3.5K11编辑于 2025-01-12
来自专栏机器之心
谷歌Gemini1.5火速上线：MoE架构，100万上下文
Gemini 1.5 建立在谷歌基础模型开发和基础设施的研究与工程创新的基础上，包括通过新的专家混合 (MoE) 架构使 Gemini 1.5 的训练和服务更加高效。领先基础模型的上下文长度高效架构 Gemini 1.5 建立在谷歌对 Transformer 和 MoE 架构的领先研究之上。传统 Transformer 充当一个大型神经网络，而 MoE 模型则分为更小的 “专家” 神经网络。根据给定输入的类型，MoE 模型学会选择性地仅激活其神经网络中最相关的专家路径。通过稀疏门控 MoE、GShard-Transformer、Switch-Transformer、M4 等研究，Google 一直是深度学习 MoE 技术的早期采用者和先驱。谷歌在模型架构方面的最新创新使 Gemini 1.5 能够更快地学习复杂任务并保持质量，同时更高效地训练和服务。
64810编辑于 2024-02-26
来自专栏贾志刚-OpenCV学堂
大语言与多模态模型架构关键组件-混合专家(MOE)详解
专家混合（MoE）是一种基于Transformers构建的高级架构。其主要理念是通过激活少数称为专家的专业网络，使模型更高效。每个专家都是一个轻量级前馈神经网络，每次只根据输入选择少数专家。 MoE的两个主要组成部分，即专家和路由器，这些内容在典型的基于LLM架构中应用。 MOE解释专家混合（MoE）是一种利用多个不同子模型（或称“专家”）来提升大型语言模型质量的技术。请记住，标准的纯解码器变换器架构在层规范化后应用FFNN：基于MOE之后的解码器块的可视化，它现在会包含更多的FFNN（每个专家一个）专家选择使用路由器完成，路由器类似于多类分类器。它根据这些分数选出顶尖的K专家（通常是1或2名）。只有被选中的专家处理该令牌。路由器与模型其他部分共同训练，学习根据输入选择最合适的专家。混合专家的优势 MoE架构代表了LLM模型设计上的重大进步。
61310编辑于 2026-04-02
来自专栏深度学习自然语言处理
幻方发布全球最强MOE大模型！ DeepSeek-V2
介绍今天，我们介绍了DeepSeek-V2，这是一个强大的专家混合（MoE）语言模型，其特点是训练经济且推理高效。它总共包含236B个参数，每个token激活21B个。评估结果验证了我们方法的有效性，因为DeepSeek-V2在标准基准测试和开放式生成评估上都取得了显著的性能。 2. 评估结果基础模型 Benchmark Domain LLaMA3 70B Mixtral 8x22B DeepSeek V1 (Dense-67B) DeepSeek V2 (MoE-236B) MMLU 模型架构 DeepSeek-V2采用创新的架构以保证训练经济和推理高效：对于注意力机制，我们设计了IEAttn，它使用低秩键值联合压缩来消除推理时键值缓存的瓶颈，从而支持高效推理。对于前馈网络（FFNs），我们采用了DeepSeekMoE架构，这是一种高性能的MoE架构，使我们能够以更低的成本训练更强的模型。 5.
1K10编辑于 2025-02-03
来自专栏DeepHub IMBA
MoR vs MoE架构对比：更少参数、更快推理的大模型新选择
在推理过程中，当输入令牌通过模型时，路由机制会从众多专家中选择性激活少数几个（通常为2-4个，总专家数可能达64个或更多）来处理该令牌。模型内部包含大量小型多层感知机专家模块，但在处理任何单一令牌时，仅有少数专家（通常2-4个）处于激活状态。路由器负责决策激活哪些专家，而其余专家保持空闲状态。 MoE架构并非即插即用的解决方案，需要针对特定硬件环境进行深度优化。递归混合架构有效避免了上述复杂性问题。该架构并非即插即用解决方案，大多数开源深度学习框架无法提供开箱即用的大规模MoE支持。对于拥有顶级基础设施的科技公司，MoE架构展现出良好的性能表现。该架构在模型微调、少样本学习以及边缘计算或消费级硬件部署方面具有明显优势。此外，MoR架构具备良好的缩放特性，这是MoE架构的薄弱环节。
57610编辑于 2025-08-20

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

45_混合专家模型：MoE架构详解

DeepSeek技术架构解析：MoE混合专家模型

-DeepSeek技术解析：MoE架构实现与代码实战

陈丹琦团队提出最新MoE架构Lory

DeepSeek MoE：混合专家架构的创新与突破

《DeepSeek MoE架构下，动态专家路由优化全解析》

DeepSeek混合专家系统（MoE）架构深度解析

LLM架构进化管窥：从管道-过滤器到MoE

MoE(Mixture-of-Experts)大模型架构的优势是什么？

《Google Gemini 1.5 Pro：MoE架构如何重塑AI性能与效率》

万亿参数震撼发布：DeepSeek V4 MoE架构深度解析

某机构Blackwell架构下MoE模型推理性能飞跃

YOLO-Master | 混合专家MOE架构的对象检测新王者

13：MoE架构如何让你的Agentic系统成本降低50%？

trace.moe

DeepSeek v3 的 MoE 模型架构与激活参数解析

谷歌Gemini1.5火速上线：MoE架构，100万上下文

大语言与多模态模型架构关键组件-混合专家(MOE)详解

幻方发布全球最强MOE大模型！ DeepSeek-V2

MoR vs MoE架构对比：更少参数、更快推理的大模型新选择

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐