首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏快乐阿超

    trace.moe

    ——太宰治《人间失格》 trace.moe:通过截图识别番剧的开源神器 trace.moe 是一个开源的番剧识别服务,通过上传任意一帧截图,即可快速识别出该画面来自哪一部动画、哪一集,甚至精确到具体的时间点 一、项目简介 trace.moe 由 @soruly 开发,提供完整的后端识别引擎、Web API 接口以及前端页面,支持本地部署和线上使用。 该项目已部署于 https://trace.moe,开放免费使用,也支持自行搭建私有服务。 二、核心功能 以图搜番:通过上传图片识别动画出处,返回标题、集数、时间戳、相似度等。 四、本地部署方式 trace.moe 提供 Docker 支持,可快速本地部署: git clone https://github.com/soruly/trace.moe.git cd trace.moe 八、结语 trace.moe 是“以图识番”领域的代表项目,简单高效、开放易用。无论是动漫站点、二次元工具、Bot 开发者,还是普通动画爱好者,都能从中获益。

    5.6K10编辑于 2025-04-05
  • 来自专栏计算机技术-参与活动

    MOE怎样划分不同专家

    \MOE怎样划分不同专家@[TOC](目录)MOE划分不同专家以及LLM模型拆分的方法及举例如下:### MOE划分不同专家的方法ffn前馈神经网络- **独立神经元划分**: - **随机划分* 例如在LLaMA-MoE模型的构建中,采用**非重叠随机拆分法**,将FFN层中的中间神经元均匀分割成**多个子集,每个子集对应一个专家网络**。 **MOE专家划分的简单实现思路(以随机划分神经元为例)** - 假设我们有一个简单的前馈神经网络(FFN)层,其权重矩阵形状为`(input_size, output_size)`。 experts_weights, experts_bias = **split_experts_randomly**(ffn_layer, num_experts) ``` - 这只是一个简单的示意,在实际的MOE

    50321编辑于 2025-01-06
  • 来自专栏信数据得永生

    Mixtral MOE 部分源码解析

    current_hidden_states = self.w2(current_hidden_states) return current_hidden_states # MOE MixtralSparseMoeBlock(nn.Module): """ This implementation is strictly equivalent to standard MoE It's faster since it formulates MoE operations in terms of block-sparse operations to accomodate imbalanced assignments of tokens to experts, whereas standard MoE either (1) drop tokens at the

    42410编辑于 2024-04-02
  • DeepSeek模型MOE结构代码详解

    这篇文章是基于 @ZOMI酱 的2个视频写的,这2个视频讲的很好,建议大家都学习一下:《MOE终于迎来可视化解读!傻瓜都能看懂MoE核心原理!》和《使用昇腾NPU手撕MoE单机版代码! MOE结构概述我们可以从zomi酱视频里面的这张图开始:添加图片注释,不超过 140 字(可选)MOE是mixture of experts 的缩写,简单来说,就是把传统transformer结构中decoder MOE计算代码接下来我们参考zomi酱提供的代码来详细看一下MOE的计算过程是怎样的:import torchimport torch.nn as nnimport torch.nn.functional (batch_size, input_dim).to(device) moe.eval() output, _ = moe(x) print(f"Eval output shape: 然后开始定义MOE类。

    32020编辑于 2025-04-21
  • 来自专栏喔家ArchiSelf

    大模型系列之解读MoE

    Mixtral 8x7B 的推出, 使我们开始更多地关注 基于MoE 的大模型架构, 那么,什么是MoE呢? 1. 总之,MoE 的引入使得训练具有数千亿甚至万亿参数的模型成为可能。 2.什么是MoEMoE的组成 在MoE系统中,传统 Transformer 模型中的每个前馈网络 (FFN) 层替换为 MoE 层,其中 MoE 层由两个核心部分组成: 一个门控网络和若干数量的专家。 MoE 的典型应用 MoE 架构已经被用来为语言模型建立大型的、计算效率高的神经网络。它们可以处理计算模式或任务,如代码生成、推理和汇总。 MoE 的简单示例 MoE 模型通常用于处理复杂的数据分布,并根据不同的专家子模型进行预测。下面使用 TensorFlow/Kera 实现一个基本的 MoE 模型步骤。

    2.8K10编辑于 2024-05-07
  • 来自专栏DeepHub IMBA

    使用PyTorch实现混合专家(MoE)模型

    MoE为部署机器学习模型提供了巨大的好处。以下是两个显著的好处。 MoE的核心优势在于其专家网络的多元化和专业化。MoE的设置能够以单一模型可能难以达到的精度处理多方面的问题。 Pytorch代码 我们这里不讨论Mixtral 8x7B这种大模型中使用的MOE技术,而是我们编写一个简单的、可以应用在任何任务中的自定义MOE,通过代码我们可以了解MOE的工作原理,这样对理解MOE 下面是我们MOE的训练 # Create the MoE model with the trained experts moe_model = MoE([expert1, expert2, expert3 epoch in range(epochs): optimizer_moe.zero_grad() outputs_moe = moe_model(x_train_moe) loss_moe = criterion(outputs_moe, y_train_moe) loss_moe.backward() optimizer_moe.step() MoE

    2.2K10编辑于 2024-01-10
  • 来自专栏信数据得永生

    大语言模型 MOE 简明实现指南

    这篇文章中,我简要实现一下大语言模型的 MOE 模块。MOE 模块位于每个GPT层中,位于注意力模块的后面,每个MOE模块包含若干个MLP模块作为专家。

    40910编辑于 2024-06-22
  • 来自专栏AutoML(自动机器学习)

    LLM 学习笔记-Deepspeed-MoE 论文

    : 推理性能还不太行:通常单个 GPU 放不下 MoE 做推理。 另一方面多 GPU 的 MoE 推理方法还欠缺研究。MoE 推理还收到内存带宽的影响。 Deepspeed-MoE针对上述挑战做了下面的改进: 把 MoE 的任务扩展到了各种自回归的 NLG 任务 提出 PR-MoE 来减少 MoE 参数 设计了 Deepspeed-MoE 推理系统,减少 将 MoE 扩展到其他下游任务 MoE 模型是基于 dense 模型设计的,即在 dense 模型的基础上把单个 MLP 替换成 多个 MLP,再加上 gate 等模块。 PR-MoE & MoS:减少模型大小,提高parameter efficiency PR-MoE (Pyramid Residual MoE)结构 PR-MoE 的是基于两个现象设计的: 现有的 MoE

    2K10编辑于 2023-12-08
  • 来自专栏深度学习自然语言处理

    训不动Mixtral,要不试试LLaMA-MoE

    随着各种各样增强版LLaMA的出现,Mixture-of-Expert(MoE)类模型越来越受大家关注。而LLaMA-MoE正是基于LLaMA系列和SlimPajama的MoE模型。 LLaMA-MoE-v1主要表现出三个特点: 从密集模型中获得MoE可以缓解从零开始训练期间的不稳定性问题,并显著减少总体预算。 以往方法普遍采用每两层或最后两层MoE层放置方法来提高训练稳定性。其中,每两层表示将偶数层的FFN替换为MoE,最后两层表示将MoE放置在最后两个偶数层。 而本文致力于建立一个完整的MoE模型,其中每一层都包含一个MoE块。 主要面临的挑战有两个:首先,如何从现有LLM中的FFNs中有效地构建专家。 继续训练转换后的MoE模型和一个额外的门网络,该网络的域权重比例与激活的参数相对应。这样,LLaMA-MoE-v1可以快速收敛到一个合适的水平。

    77010编辑于 2023-12-28
  • 来自专栏AI SPPECH

    45_混合专家模型:MoE架构详解

    │ ├── 5.1 华为盘古Ultra MoE │ ├── 5.2 DeepSeek V3架构解析 │ └── 5.3 其他主流MoE模型比较 ├── 第六章:MoE模型的工程实现挑战 │ MLA和MoE架构的结合带来了显著的协同效应: 内存效率:MLA降低了KV缓存占用,为MoE的大规模参数提供了更多内存空间 计算平衡:MLA的计算复杂度为O(B²L²H + BLHd_h),与MoE的 第五章:2025年代表性MoE模型分析 5.1 华为盘古Ultra MoE 华为盘古Ultra MoE是2025年5月30日发布的超大规模MoE模型,代表了国内在稀疏计算领域的最高水平。 7.2 应用场景拓展 MoE架构的应用场景将从通用大语言模型扩展到更多专业领域: 多模态MoE: 处理文本、图像、音频等多模态输入的专用专家 跨模态信息融合的MoE设计 多模态任务的联合优化 垂直领域 第八章:MoE训练框架实现 8.1 PyTorch实现基础MoE层 下面是一个基于PyTorch的基础MoE层实现,包含专家网络和门控网络的核心组件: import torch import torch.nn

    99710编辑于 2025-11-12
  • DeepSeek技术架构解析:MoE混合专家模型

    混合专家模型(MoE)本质上是一种改进版的Transformer架构,其核心创新点在于引入动态计算的模块化结构,具体可通过以下维度理解: 稀疏 MoE 层:不同于传统Transformer中每个前馈网络 (FFN)层采用固定结构的密集计算方式,MoE通过拆分-重组架构实现计算稀疏化。 尽管混合专家模型 (MoE) 提供了若干显著优势,例如更高效的预训练和与稠密模型相比更快的推理速度,但它们也伴随着一些挑战: 训练挑战: 虽然 MoE 能够实现更高效的计算预训练,但它们在微调阶段往往面临泛化能力不足的问题 Outrageously Large Neural Network 论文中的 MoE layer 3.3.2 阶段2:工程攻坚(2021-2023) 内存优化:DeepSpeed-MoE提出专家分片存储 3.3.3 阶段3:开放生态(2023至今) 开源引爆点:Mistral AI的Mixtral 8x7B(2023.12)首次在消费级GPU集群证明MoE的高性价比 多模态融合:Google的V-MoE

    98320编辑于 2025-11-20
  • 来自专栏AI学习笔记

    端侧 MoE 推理:Mixtral 模型手机部署

    (二)MoE 模型的基本原理MoE(Mixture of Experts)模型是一种典型的模型并行方法。它通过将多个专家网络(Expert)的输出进行加权组合,来实现对输入数据的预测。 这种结构使得 MoE 模型在处理复杂的、多样化的数据时具有较高的灵活性和准确性。(三)MoE 模型在端侧推理中的挑战尽管 MoE 模型具有许多优势,但在端侧推理中也面临着一些挑战。 此外,如何在保证模型性能的前提下,尽可能地减少计算量和能量消耗,也是端侧 MoE 推理需要解决的难题。 它在传统 MoE 模型的基础上进行了改进和优化,以适应更复杂的任务需求和数据分布。 (二)Mixtral 模型的结构特点Mixtral 模型采用了多层的编码器 - 解码器架构,结合了自注意力机制和 MoE 模块。其 MoE 部分包含多个专家网络,每个专家网络专注于不同的语言特征学习。

    61810编辑于 2025-07-14
  • -DeepSeek技术解析:MoE架构实现与代码实战

    以下是一篇结合DeepSeek技术解析与代码示例的技术文章,重点展示其核心算法实现与落地应用:DeepSeek技术解析:MoE架构实现与代码实战作为中国AI领域的创新代表,DeepSeek在混合专家模型 (Mixture of Experts, MoE)领域取得重要突破。 本文将通过代码实例解析其核心技术,并展示如何基于DeepSeek-MoE框架实现高效推理。 动态路由的稳定性问题传统MoE模型常面临专家选择震荡问题:当输入数据分布变化时,门控网络可能在不同专家间频繁切换,导致训练不收敛。 DeepSeek的 「专家位置感知调度」 算法通过:预分析计算图,将高频共现的专家分配到同物理设备采用RDMA网络传输协议,降低跨节点通信延迟一、MoE架构设计原理DeepSeek的稀疏化MoE架构通过动态路由机制

    1.3K10编辑于 2025-03-15
  • XVERSE-MoE-A4.2B Transformers 部署调用

    XVERSE-MoE-A4.2B介绍 XVERSE-MoE-A4.2B 是由深圳元象科技自主研发的支持多语言的大语言模型(Large Language Model),使用混合专家模型(MoE,Mixture-of-experts )架构,模型的总参数规模为 258 亿,实际激活的参数量为 42 亿,本次开源的模型为底座模型 XVERSE-MoE-A4.2B,主要特点如下: 模型结构:XVERSE-MoE-A4.2B 为 Decoder-only 训练框架:针对 MoE 模型中独有的专家路由和权重计算逻辑,进行了深入定制优化,开发出一套高效的融合算子,以提升计算效率。 同时,为解决 MoE 模型显存占用和通信量大的挑战,设计了计算、通信和 CPU-Offload 的 Overlap 处理方式,从而提高整体吞吐量。 有关 XVERSE-MoE-A4.2B 模型的相关报告可以看:元象首个MoE大模型开源:4.2B激活参数,效果堪比13B模型 讲讲显存计算 显存计算的考虑会随着模型类型不同,任务不同而变化 这里的Transformers

    26510编辑于 2025-07-21
  • 来自专栏AI前沿技术

    大模型|MoE混合专家系统介绍

    1, MoE模型架构中路由器和专家系统介绍 2, 专家系统中稀疏性的公式推导和具体的推理流程介绍 3, MoE系统中专家负载不均衡问题的解决方案探讨 1,MoE原理介绍 MoE定义:将传统 Transformer 模型中的每个前馈网络(FFN) 层替换为MoE层,就构成了混合专家系统,其中MoE 层由两个核心部分组成:一个路由门控网络和若干数量的专家系统。 图1,混合专家系统MoE示意。 1.2,MoE 中的稀疏性 MoE系统具备的稀疏性,使得模型在训练和推理时,使用少量的计算资源,就可以完整摸型计算,而效果与稠密模型持平。 3,MoE系统优势和局限 • 预训练速度更快,且有更快的推理速度。 具有相同参数量的稠密模型和MoE模型,在训练和推理时,MoE模型具有明显优势。 • 阻碍MoE模型大规模流行的原因有那些?

    48310编辑于 2026-01-13
  • 来自专栏SimpleAI

    Mixture-of-Experts (MoE) 经典论文一览

    Mixture-of-Experts (MoE) 经典论文一览 最近接触到 Mixture-of-Experts (MoE) 这个概念,才发现这是一个已经有30多年历史、至今依然在被广泛应用的技术,所以读了相关的几篇经典论文 这篇文章是在RNN的结构上加入了MoE layer: MoE-2017 如图所示,每个token对应的position,都会有一个MoE Layer,每个MoE layer中包含了一堆的experts ,而本文的MoE的作用主要就在于极大地扩大了模型容量——通过MoE,把RNN-based网络做到了137B(1.3千亿)参数的规模,还是挺震撼的。 这样就是最稀疏的MoE了,因此单单从MoE layer的计算效率上讲是最高的了。 虽然目前 MoE 的工作,多数都是开发“超级模型”,但是上面列举的一些工作也表明 MoE 的用途还有很多,可以启发很多方向上方法的改进。

    3K30编辑于 2022-12-01
  • DeepSeek-MoE-16b-chat FastApi 部署调用

    DeepSeek-MoE-16b-chat FastApi 部署调用 DeepSeek-MoE-16b-chat 介绍 DeepSeek MoE目前推出的版本参数量为160亿,实际激活参数量大约是28亿 而与同为密集模型的Llama 2-7B相比,DeepSeek MoE在数学、代码等方面还体现出来明显的优势。 但两种密集模型的计算量都超过了180TFLOPs每4k token,DeepSeek MoE却只有74.4TFLOPs,只有两者的40%。 snapshot_download, AutoModel, AutoTokenizer import os model_dir = snapshot_download('deepseek-ai/deepseek-moe # 主函数入口 if __name__ == '__main__': mode_name_or_path = '/root/autodl-tmp/deepseek-ai/deepseek-moe

    25910编辑于 2025-07-17
  • 来自专栏深度学习自然语言处理

    陈丹琦团队提出最新MoE架构Lory

    引言 (Introduction) MoE 架构: 介绍了 MoE 架构及其在模型大小扩展中的作用,同时指出了训练路由网络的挑战。 预备知识 (Preliminaries) 稀疏激活 MoE: 解释了 Transformer 基础的 MoE 语言模型是如何工作的,以及如何通过路由网络计算路由权重。 通过专家合并的完全可微分 MoE 架构: 讨论了如何通过在参数空间中计算所有专家 FFN 的加权平均值来创建“合并 FFN”,从而实现 MoE 架构的完全可微分性。 与现有 MoE 模型的比较: 将 Lory 与现有的 Expert Choice (EC) MoE 方法进行了比较。 相关工作 (Related Work) MoE: 讨论了 MoE 模型的发展历程和挑战。 基于相似性的数据批处理: 提到了其他研究中使用类似数据批处理方法的工作。

    66110编辑于 2024-05-11
  • 来自专栏深度学习自然语言处理

    大模型微调新范式:当LoRA遇见MoE

    左侧:原始版本的LoRA,权重是稠密的,每个样本都会激活所有参数;右侧:与混合专家(MoE)框架结合的LoRA,每一层插入多个并行的LoRA权重(即MoE中的多个专家模型),路由模块(Router)输出每个专家的激活概率 近来,大模型研究者们为了克服稠密模型的参数效率瓶颈,开始关注以Mistral、DeepDeek MoE为代表的混合专家(Mixure of Experts,简称MoE)模型框架。 那么,对于已经发布的稠密大模型的PEFT训练,是否可以应用MoE的思路呢? 本文将解读其中三篇具有代表作的工作,以下是太长不看版: • MoV和MoLORA [1]:提出于2023年9月,首个结合PEFT和MoE的工作,MoV和MoLORA分别是 IA3 和LORA的MOE版本 的MOE)版本和MoLORA(LORA的MOE)版本,发现MoV的性能在相等的可训练参数量设定下优于原始的LORA,非常接近全参数微调。

    3.7K20编辑于 2024-03-02
  • 来自专栏AI前沿技术

    大模型-混合专家系统MoE介绍

    1,MoE原理介绍 MoE模型利用稀疏性特点,加快了大模型训练和推理的速度。 MoE定义 将传统 Transformer 模型中的每个前馈网络(FFN) 层替换为MoE层,就构成了混合专家系统,其中MoE 层由两个核心部分组成:一个门控网络和若干数量的专家系统。 MoE系统具备的稀疏性,使得模型在训练和推理时,使用少量的计算资源,就可以完整摸型计算,而效果与稠密模型持平。 3,MoE系统优势和局限 • 预训练速度更快,且有更快的推理速度。 具有相同参数量的稠密模型和MoE模型,在训练和推理时,MoE模型具有明显优势。 • 阻碍MoE模型大规模流行的原因有那些?

    31110编辑于 2026-01-13
领券