搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏快乐阿超
trace.moe
——太宰治《人间失格》 trace.moe：通过截图识别番剧的开源神器 trace.moe 是一个开源的番剧识别服务，通过上传任意一帧截图，即可快速识别出该画面来自哪一部动画、哪一集，甚至精确到具体的时间点一、项目简介 trace.moe 由 @soruly 开发，提供完整的后端识别引擎、Web API 接口以及前端页面，支持本地部署和线上使用。该项目已部署于 https://trace.moe，开放免费使用，也支持自行搭建私有服务。二、核心功能以图搜番：通过上传图片识别动画出处，返回标题、集数、时间戳、相似度等。四、本地部署方式 trace.moe 提供 Docker 支持，可快速本地部署： git clone https://github.com/soruly/trace.moe.git cd trace.moe 八、结语 trace.moe 是“以图识番”领域的代表项目，简单高效、开放易用。无论是动漫站点、二次元工具、Bot 开发者，还是普通动画爱好者，都能从中获益。
6.7K10编辑于 2025-04-05
来自专栏计算机技术-参与活动
MOE怎样划分不同专家
\MOE怎样划分不同专家@[TOC](目录)MOE划分不同专家以及LLM模型拆分的方法及举例如下：### MOE划分不同专家的方法ffn前馈神经网络- **独立神经元划分**： - **随机划分* 例如在LLaMA-MoE模型的构建中，采用**非重叠随机拆分法**，将FFN层中的中间神经元均匀分割成**多个子集，每个子集对应一个专家网络**。 **MOE专家划分的简单实现思路（以随机划分神经元为例）** - 假设我们有一个简单的前馈神经网络（FFN）层，其权重矩阵形状为`(input_size, output_size)`。 experts_weights, experts_bias = **split_experts_randomly**(ffn_layer, num_experts) ``` - 这只是一个简单的示意，在实际的MOE
56021编辑于 2025-01-06
来自专栏信数据得永生
Mixtral MOE 部分源码解析
current_hidden_states = self.w2(current_hidden_states) return current_hidden_states # MOE MixtralSparseMoeBlock(nn.Module): """ This implementation is strictly equivalent to standard MoE It's faster since it formulates MoE operations in terms of block-sparse operations to accomodate imbalanced assignments of tokens to experts, whereas standard MoE either (1) drop tokens at the
45310编辑于 2024-04-02
DeepSeek模型MOE结构代码详解
这篇文章是基于 @ZOMI酱的2个视频写的，这2个视频讲的很好，建议大家都学习一下：《MOE终于迎来可视化解读！傻瓜都能看懂MoE核心原理！》和《使用昇腾NPU手撕MoE单机版代码！ MOE结构概述我们可以从zomi酱视频里面的这张图开始：添加图片注释，不超过 140 字（可选）MOE是mixture of experts 的缩写，简单来说，就是把传统transformer结构中decoder MOE计算代码接下来我们参考zomi酱提供的代码来详细看一下MOE的计算过程是怎样的：import torchimport torch.nn as nnimport torch.nn.functional (batch_size, input_dim).to(device) moe.eval() output, _ = moe(x) print(f"Eval output shape: 然后开始定义MOE类。
38520编辑于 2025-04-21
来自专栏喔家ArchiSelf
大模型系列之解读MoE
Mixtral 8x7B 的推出，使我们开始更多地关注基于MoE 的大模型架构，那么，什么是MoE呢？ 1. 总之，MoE 的引入使得训练具有数千亿甚至万亿参数的模型成为可能。 2.什么是MoE？ MoE的组成在MoE系统中，传统 Transformer 模型中的每个前馈网络 (FFN) 层替换为 MoE 层，其中 MoE 层由两个核心部分组成: 一个门控网络和若干数量的专家。 MoE 的典型应用 MoE 架构已经被用来为语言模型建立大型的、计算效率高的神经网络。它们可以处理计算模式或任务，如代码生成、推理和汇总。 MoE 的简单示例 MoE 模型通常用于处理复杂的数据分布，并根据不同的专家子模型进行预测。下面使用 TensorFlow/Kera 实现一个基本的 MoE 模型步骤。
3.1K10编辑于 2024-05-07
来自专栏周拱壹卒
【译】混合专家（Mixture of Experts, MoE）
原文地址：Mixture of Experts (MoE)[1] 原文作者：Sebastian Raschka[2] 混合专家（Mixture of Experts, MoE）是近年来开源大模型能够拥有极高的总参数量一个单一的稠密前馈块被一个带有多个专家的路由 MoE 模块所取代。例如，“共享专家”就是除了路由选择的专家外，始终保持激活的专家；还有“潜在 MoE”（latent MoE[12]），如 Nemotron 3 Super，将专家计算迁移到更小的潜在空间中。 MoE 堆栈，具有交替的局部和全局注意力 Mistral Large 3[16]：另一个 DeepSeek 风格的 MoE 架构参考来源大语言模型架构对比[17] 《从零构建大模型》MoE 章节[ 18] 参考资料 [1] Mixture of Experts (MoE): https://sebastianraschka.com/llm-architecture-gallery/moe/ [2
27010编辑于 2026-04-09
来自专栏DeepHub IMBA
使用PyTorch实现混合专家(MoE)模型
MoE为部署机器学习模型提供了巨大的好处。以下是两个显著的好处。 MoE的核心优势在于其专家网络的多元化和专业化。MoE的设置能够以单一模型可能难以达到的精度处理多方面的问题。 Pytorch代码我们这里不讨论Mixtral 8x7B这种大模型中使用的MOE技术，而是我们编写一个简单的、可以应用在任何任务中的自定义MOE，通过代码我们可以了解MOE的工作原理，这样对理解MOE 下面是我们MOE的训练 # Create the MoE model with the trained experts moe_model = MoE([expert1, expert2, expert3 epoch in range(epochs): optimizer_moe.zero_grad() outputs_moe = moe_model(x_train_moe) loss_moe = criterion(outputs_moe, y_train_moe) loss_moe.backward() optimizer_moe.step() MoE
2.2K10编辑于 2024-01-10
来自专栏信数据得永生
大语言模型 MOE 简明实现指南
这篇文章中，我简要实现一下大语言模型的 MOE 模块。MOE 模块位于每个GPT层中，位于注意力模块的后面，每个MOE模块包含若干个MLP模块作为专家。
44810编辑于 2024-06-22
来自专栏AutoML(自动机器学习)
LLM 学习笔记-Deepspeed-MoE 论文
：推理性能还不太行：通常单个 GPU 放不下 MoE 做推理。另一方面多 GPU 的 MoE 推理方法还欠缺研究。MoE 推理还收到内存带宽的影响。 Deepspeed-MoE针对上述挑战做了下面的改进：把 MoE 的任务扩展到了各种自回归的 NLG 任务提出 PR-MoE 来减少 MoE 参数设计了 Deepspeed-MoE 推理系统，减少将 MoE 扩展到其他下游任务 MoE 模型是基于 dense 模型设计的，即在 dense 模型的基础上把单个 MLP 替换成多个 MLP，再加上 gate 等模块。 PR-MoE & MoS：减少模型大小，提高parameter efficiency PR-MoE （Pyramid Residual MoE）结构 PR-MoE 的是基于两个现象设计的：现有的 MoE
2.1K10编辑于 2023-12-08
来自专栏深度学习自然语言处理
训不动Mixtral，要不试试LLaMA-MoE？
随着各种各样增强版LLaMA的出现，Mixture-of-Expert(MoE)类模型越来越受大家关注。而LLaMA-MoE正是基于LLaMA系列和SlimPajama的MoE模型。 LLaMA-MoE-v1主要表现出三个特点: 从密集模型中获得MoE可以缓解从零开始训练期间的不稳定性问题，并显著减少总体预算。以往方法普遍采用每两层或最后两层MoE层放置方法来提高训练稳定性。其中，每两层表示将偶数层的FFN替换为MoE,最后两层表示将MoE放置在最后两个偶数层。而本文致力于建立一个完整的MoE模型，其中每一层都包含一个MoE块。主要面临的挑战有两个：首先，如何从现有LLM中的FFNs中有效地构建专家。继续训练转换后的MoE模型和一个额外的门网络，该网络的域权重比例与激活的参数相对应。这样，LLaMA-MoE-v1可以快速收敛到一个合适的水平。
81910编辑于 2023-12-28
DeepSeek技术架构解析：MoE混合专家模型
混合专家模型(MoE)本质上是一种改进版的Transformer架构，其核心创新点在于引入动态计算的模块化结构，具体可通过以下维度理解：稀疏 MoE 层：不同于传统Transformer中每个前馈网络 (FFN)层采用固定结构的密集计算方式，MoE通过拆分-重组架构实现计算稀疏化。尽管混合专家模型 (MoE) 提供了若干显著优势，例如更高效的预训练和与稠密模型相比更快的推理速度，但它们也伴随着一些挑战：训练挑战: 虽然 MoE 能够实现更高效的计算预训练，但它们在微调阶段往往面临泛化能力不足的问题 Outrageously Large Neural Network 论文中的 MoE layer 3.3.2 阶段2：工程攻坚（2021-2023）内存优化：DeepSpeed-MoE提出专家分片存储 3.3.3 阶段3：开放生态（2023至今）开源引爆点：Mistral AI的Mixtral 8x7B（2023.12）首次在消费级GPU集群证明MoE的高性价比多模态融合：Google的V-MoE
1.5K20编辑于 2025-11-20
来自专栏AI SPPECH
45_混合专家模型：MoE架构详解
│ ├── 5.1 华为盘古Ultra MoE │ ├── 5.2 DeepSeek V3架构解析 │ └── 5.3 其他主流MoE模型比较 ├── 第六章：MoE模型的工程实现挑战 │ MLA和MoE架构的结合带来了显著的协同效应：内存效率：MLA降低了KV缓存占用，为MoE的大规模参数提供了更多内存空间计算平衡：MLA的计算复杂度为O(B²L²H + BLHd_h)，与MoE的第五章：2025年代表性MoE模型分析 5.1 华为盘古Ultra MoE 华为盘古Ultra MoE是2025年5月30日发布的超大规模MoE模型，代表了国内在稀疏计算领域的最高水平。 7.2 应用场景拓展 MoE架构的应用场景将从通用大语言模型扩展到更多专业领域：多模态MoE：处理文本、图像、音频等多模态输入的专用专家跨模态信息融合的MoE设计多模态任务的联合优化垂直领域第八章：MoE训练框架实现 8.1 PyTorch实现基础MoE层下面是一个基于PyTorch的基础MoE层实现，包含专家网络和门控网络的核心组件： import torch import torch.nn
1.4K10编辑于 2025-11-12
来自专栏AI学习笔记
端侧 MoE 推理：Mixtral 模型手机部署
（二）MoE 模型的基本原理MoE（Mixture of Experts）模型是一种典型的模型并行方法。它通过将多个专家网络（Expert）的输出进行加权组合，来实现对输入数据的预测。这种结构使得 MoE 模型在处理复杂的、多样化的数据时具有较高的灵活性和准确性。（三）MoE 模型在端侧推理中的挑战尽管 MoE 模型具有许多优势，但在端侧推理中也面临着一些挑战。此外，如何在保证模型性能的前提下，尽可能地减少计算量和能量消耗，也是端侧 MoE 推理需要解决的难题。它在传统 MoE 模型的基础上进行了改进和优化，以适应更复杂的任务需求和数据分布。（二）Mixtral 模型的结构特点Mixtral 模型采用了多层的编码器 - 解码器架构，结合了自注意力机制和 MoE 模块。其 MoE 部分包含多个专家网络，每个专家网络专注于不同的语言特征学习。
70410编辑于 2025-07-14
-DeepSeek技术解析：MoE架构实现与代码实战
以下是一篇结合DeepSeek技术解析与代码示例的技术文章，重点展示其核心算法实现与落地应用：DeepSeek技术解析：MoE架构实现与代码实战作为中国AI领域的创新代表，DeepSeek在混合专家模型（Mixture of Experts, MoE）领域取得重要突破。本文将通过代码实例解析其核心技术，并展示如何基于DeepSeek-MoE框架实现高效推理。动态路由的稳定性问题传统MoE模型常面临专家选择震荡问题：当输入数据分布变化时，门控网络可能在不同专家间频繁切换，导致训练不收敛。 DeepSeek的「专家位置感知调度」算法通过：预分析计算图，将高频共现的专家分配到同物理设备采用RDMA网络传输协议，降低跨节点通信延迟一、MoE架构设计原理DeepSeek的稀疏化MoE架构通过动态路由机制
1.4K10编辑于 2025-03-15
循环深度Transformer与MoE路由编码教程
在此过程中，还通过ACT暂停机制检查自适应计算，并监控MoE层中的专家利用率，从而对这种新兴架构提供全面的实践理解。 expert_hits = Counter()orig_moe = model.recurrent.block.ffn.forwarddef moe_hook(self, x): flat = x.view (x)model.recurrent.block.ffn.forward = moe_hook. 32) _ = model(x_m, n_loops=T_TRAIN)model.recurrent.block.ffn.forward = orig_moeprint("\n─── 第8部分 ─ MoE 同时了解了ACT如何实现跨序列位置的动态计算，以及MoE路由如何将工作负载分配给不同的专家。
4510编辑于 2026-04-26
XVERSE-MoE-A4.2B Transformers 部署调用
XVERSE-MoE-A4.2B介绍 XVERSE-MoE-A4.2B 是由深圳元象科技自主研发的支持多语言的大语言模型（Large Language Model），使用混合专家模型（MoE，Mixture-of-experts ）架构，模型的总参数规模为 258 亿，实际激活的参数量为 42 亿，本次开源的模型为底座模型 XVERSE-MoE-A4.2B，主要特点如下：模型结构：XVERSE-MoE-A4.2B 为 Decoder-only 训练框架：针对 MoE 模型中独有的专家路由和权重计算逻辑，进行了深入定制优化，开发出一套高效的融合算子，以提升计算效率。同时，为解决 MoE 模型显存占用和通信量大的挑战，设计了计算、通信和 CPU-Offload 的 Overlap 处理方式，从而提高整体吞吐量。有关 XVERSE-MoE-A4.2B 模型的相关报告可以看：元象首个MoE大模型开源：4.2B激活参数，效果堪比13B模型讲讲显存计算显存计算的考虑会随着模型类型不同，任务不同而变化这里的Transformers
32310编辑于 2025-07-21
来自专栏AI前沿技术
大模型｜MoE混合专家系统介绍
1, MoE模型架构中路由器和专家系统介绍 2, 专家系统中稀疏性的公式推导和具体的推理流程介绍 3, MoE系统中专家负载不均衡问题的解决方案探讨 1，MoE原理介绍 MoE定义：将传统 Transformer 模型中的每个前馈网络(FFN) 层替换为MoE层，就构成了混合专家系统，其中MoE 层由两个核心部分组成：一个路由门控网络和若干数量的专家系统。图1，混合专家系统MoE示意。 1.2，MoE 中的稀疏性 MoE系统具备的稀疏性，使得模型在训练和推理时，使用少量的计算资源，就可以完整摸型计算，而效果与稠密模型持平。 3，MoE系统优势和局限 • 预训练速度更快，且有更快的推理速度。具有相同参数量的稠密模型和MoE模型，在训练和推理时，MoE模型具有明显优势。 • 阻碍MoE模型大规模流行的原因有那些?
76610编辑于 2026-01-13
来自专栏SimpleAI
Mixture-of-Experts (MoE) 经典论文一览
Mixture-of-Experts (MoE) 经典论文一览最近接触到 Mixture-of-Experts (MoE) 这个概念，才发现这是一个已经有30多年历史、至今依然在被广泛应用的技术，所以读了相关的几篇经典论文这篇文章是在RNN的结构上加入了MoE layer： MoE-2017 如图所示，每个token对应的position，都会有一个MoE Layer，每个MoE layer中包含了一堆的experts ，而本文的MoE的作用主要就在于极大地扩大了模型容量——通过MoE，把RNN-based网络做到了137B（1.3千亿）参数的规模，还是挺震撼的。这样就是最稀疏的MoE了，因此单单从MoE layer的计算效率上讲是最高的了。虽然目前 MoE 的工作，多数都是开发“超级模型”，但是上面列举的一些工作也表明 MoE 的用途还有很多，可以启发很多方向上方法的改进。
3.1K30编辑于 2022-12-01
来自专栏深度学习自然语言处理
陈丹琦团队提出最新MoE架构Lory
引言 (Introduction) MoE 架构: 介绍了 MoE 架构及其在模型大小扩展中的作用，同时指出了训练路由网络的挑战。预备知识 (Preliminaries) 稀疏激活 MoE: 解释了 Transformer 基础的 MoE 语言模型是如何工作的，以及如何通过路由网络计算路由权重。通过专家合并的完全可微分 MoE 架构: 讨论了如何通过在参数空间中计算所有专家 FFN 的加权平均值来创建“合并 FFN”，从而实现 MoE 架构的完全可微分性。与现有 MoE 模型的比较: 将 Lory 与现有的 Expert Choice (EC) MoE 方法进行了比较。相关工作 (Related Work) MoE: 讨论了 MoE 模型的发展历程和挑战。基于相似性的数据批处理: 提到了其他研究中使用类似数据批处理方法的工作。
75010编辑于 2024-05-11
来自专栏深度学习自然语言处理
大模型微调新范式：当LoRA遇见MoE
左侧：原始版本的LoRA，权重是稠密的，每个样本都会激活所有参数；右侧：与混合专家（MoE）框架结合的LoRA，每一层插入多个并行的LoRA权重（即MoE中的多个专家模型），路由模块（Router）输出每个专家的激活概率近来，大模型研究者们为了克服稠密模型的参数效率瓶颈，开始关注以Mistral、DeepDeek MoE为代表的混合专家（Mixure of Experts，简称MoE）模型框架。那么，对于已经发布的稠密大模型的PEFT训练，是否可以应用MoE的思路呢？本文将解读其中三篇具有代表作的工作，以下是太长不看版： • MoV和MoLORA [1]：提出于2023年9月，首个结合PEFT和MoE的工作，MoV和MoLORA分别是 IA3 和LORA的MOE版本的MOE）版本和MoLORA（LORA的MOE）版本，发现MoV的性能在相等的可训练参数量设定下优于原始的LORA，非常接近全参数微调。
3.8K20编辑于 2024-03-02

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

trace.moe

MOE怎样划分不同专家

Mixtral MOE 部分源码解析

DeepSeek模型MOE结构代码详解

大模型系列之解读MoE

【译】混合专家（Mixture of Experts, MoE）

使用PyTorch实现混合专家(MoE)模型

大语言模型 MOE 简明实现指南

LLM 学习笔记-Deepspeed-MoE 论文

训不动Mixtral，要不试试LLaMA-MoE？

DeepSeek技术架构解析：MoE混合专家模型

45_混合专家模型：MoE架构详解

端侧 MoE 推理：Mixtral 模型手机部署

-DeepSeek技术解析：MoE架构实现与代码实战

循环深度Transformer与MoE路由编码教程

XVERSE-MoE-A4.2B Transformers 部署调用

大模型｜MoE混合专家系统介绍

Mixture-of-Experts (MoE) 经典论文一览

陈丹琦团队提出最新MoE架构Lory

大模型微调新范式：当LoRA遇见MoE

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐