首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 深度学习前沿:稀疏专家模型(MoE)门控机制的探索

    稀疏专家模型(MoE)概述 在深度学习领域,稀疏专家模型(Mixture of Experts, MoE)正成为处理超大规模模型的重要范式。 与传统稠密模型不同,MoE在每次前向传播时仅激活部分专家(通常为1-2个),这种稀疏激活特性使其参数量可以指数级增长而不显著增加计算成本。 2021年Google推出的Switch Transformer将专家数量扩展到数千个,验证了超大规模稀疏模型的可行性。 负载均衡的数学建模 在稀疏专家模型(MoE)的架构中,负载均衡问题直接决定了模型的计算效率和资源利用率。 未来展望与挑战 技术演进的三重突破方向 当前稀疏专家模型(MoE)的门控机制正面临从"可用"到"好用"的关键跃迁阶段。

    1.7K10编辑于 2025-08-27
  • 来自专栏智能生信

    稀疏混合专家融合是领域泛化的学习者

    在这项工作中,作者通过利用分布式处理跨领域预测特征的多个方面,揭示了混合专家(MoE)模型在DG上的可泛化性。 为此,作者提出了稀疏融合混合专家模型(SF-MoE),该模型将稀疏性和融合机制结合到MoE框架中,以保持模型的稀疏性和预测性。 SF-MoE有两个专用模块:稀疏块和融合块,分别对对象的不同学习信号进行分离和聚合。大量实验表明,SF-MoE是大规模基准测试领域的可泛化学习者。

    51420编辑于 2022-12-29
  • 来自专栏时空探索之旅

    Moirai-MoE: 稀疏混合专家赋能时间序列基础模型

    频率挑战 为了解决上述问题,作者提出了全新的时间序列统一训练解决方案Moirai-MoE,其核心思想是利用单个输入/输出投影层,同时将各种时间序列模式的建模委托给 Transformer层中的稀疏混合专家 基于稀疏混合专家的时序基础模型 Moirai-MoE构建在它的前序工作Moirai之上。 但其主要改进在于:Moirai-MoE不使用多个启发式定义的输入/输出投影层来对具有不同频率的时间序列进行建模,而是使用单个输入/输出投影层,同时将捕获不同时间序列模式的任务委托给Transformer中的稀疏混合专家 稀疏混合专家Transformer 通过用MoE层替换Transformer的每个FFN来建立专家混合层。该MoE层由个专家网络和一个门控函数组成。 每个token只激活一个专家子集,从而允许专家专注于不同模式的时间序列数据并确保计算效率。在Moirai-MoE中,作者探索了不同的门控函数。

    75500编辑于 2024-11-19
  • 来自专栏机器之心

    可与ViT一较高下,DeepMind从稀疏转向Soft混合专家模型

    稀疏混合专家模型(MoE)是一种很有前途的替代方案,可以在计算成本较少的情况下,扩展模型的大小。 稀疏 MoE Transformer 有一个关键的离散优化问题:决定每个输入 token 应该使用哪些模块。这些模块通常是称为专家的 MLP。 论文地址:https://arxiv.org/pdf/2308.00951.pdf Soft MoE 不采用稀疏且离散的路由器在 token 和专家之间进行硬分配(hard assignment),而是通过混合 作为对比,稀疏 MoE 方法通常采用的是硬分类。 其次 Soft MoE 没有 token dropping 和专家不平衡。 因此,Soft MoE 的速度明显要快于大多数稀疏 MoE,具体如下图 6 所示。 Soft MoE 还兼具稀疏和密集的特点。稀疏 MoE 的稀疏性来自于专家参数仅应用于输入 token 的子集。

    35410编辑于 2023-09-08
  • 来自专栏大模型系列

    解密 DeepSeek V4:双稀疏 MoE + Engram 记忆 + Muon 优化器,如何打造高效万亿模型?

    其采用先进的双稀疏设计、优化的混合注意力机制、全栈国产化适配等关键技术,构建了一个高效、普惠、安全的大模型生态系统。 在推理过程中,通过一个“门控网络”(GatingNetwork)动态选择最合适的专家组合,实现稀疏激活。 2.2双稀疏架构(Two-AxisSparsity)DeepSeekV4最核心的创新之一是“双稀疏架构”,即在两个维度上同时实现稀疏化:2.2.1专家维度稀疏(ExpertSparsity)专家维度稀疏是 通过双稀疏架构,DeepSeekV4成功将100万Token上下文的推理计算量压缩至前代模型的个位数百分比,实现了长文本处理的革命性突破。 其创新的MoE架构、双稀疏设计、混合注意力机制、Engram记忆架构等技术突破,不仅解决了超大规模模型的效率问题,更在长上下文处理、推理性能、成本控制等方面实现了全面领先。

    22320编辑于 2026-05-16
  • 来自专栏大模型系列

    打破幻觉与成本魔咒:DeepSeek-V4 如何用双稀疏架构重塑大模型未来?

    DeepSeek-V4的“双稀疏架构”正是对这一时代命题的响亮回答。 第二章:核心理念——从“单”到“双”的范式跃迁在DeepSeek-V4之前,主流的稀疏化技术是混合专家(MixtureofExperts,MoE)。 MoE通过为每个输入Token动态选择激活少量“专家”子网络,实现了条件计算(ConditionalComputation),即只在需要时才进行计算。这是一种单稀疏,其稀疏性仅体现在“计算”维度上。 这构成了其双稀疏架构的核心:第一:MoE-条件计算:负责动态的、复杂的逻辑推理和创造性任务。第二:Engram-条件记忆:负责高效、精准地存储和检索静态的、确定性的事实知识。 这场由“双稀疏”引发的架构革命,正在深刻地重塑大模型的未来格局。

    43220编辑于 2026-04-24
  • 来自专栏机器之心

    30年历史回顾,Jeff Dean:我们整理了一份「稀疏专家模型」研究综述

    机器之心报道 机器之心编辑部 30年时间,稀疏专家模型已逐渐成为一种很有前途的解决方案。 稀疏专家模型是一个已有 30 年历史的概念,至今依然被广泛使用,是深度学习中的流行架构。 近日,谷歌 AI 负责人 Jeff Dean 等人撰写了一篇稀疏专家模型的综述,回顾了稀疏专家模型的概念,提供了通用算法的基本描述,最后展望了未来的研究方向。 稀疏专家模型已成为一种很有前途的解决方案。 稀疏专家模型(其中,混合专家系统(MoE)是最流行的变体)是一种特殊的神经网络,其中一组参数被划分为 “专家”,每个“专家” 具有唯一的权重。 ., 2021),进一步复杂化了对稀疏专家模型的理解。 上游扩展 稀疏专家模型在大型数据集上训练时表现出色。 稀疏专家模型的迅速发展 稀疏专家模型的影响正在迅速蔓延到NLP以外的其他领域,包括计算机视觉、语音识别和多模态应用。

    72530编辑于 2022-10-08
  • 来自专栏机器之心

    手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)

    选自huggingface 机器之心编译 机器之心编辑部 本文介绍了实现一个稀疏混合专家语言模型(MoE)的方法,详细解释了模型的实施过程,包括采用稀疏混合专家取代传统的前馈神经网络,实现 top-k 内容简介 在混合专家模型 Mixtral 发布后,混合专家模型(MoE)越来越受到人们的关注。在稀疏化的混合专家语言模型中,大部分组件都与传统的 transformers 相同。 不过,每个区块的结构发生了巨大的变化:标准的前馈神经网络被多个稀疏激活的前馈网络(即专家网络)所取代。所谓「稀疏激活」,是指序列中的每个 token 只被分配给有限数量的专家(通常是一个或两个)。 这个过程的关键和难点是避免不必要的乘法运算,只为前 k 名专家进行正向转播。为每个专家执行前向传播将破坏使用稀疏 MoE 的目的,因为这个过程将不再是稀疏的。 索引确定了被激活的专家是哪些, 对应的值又决定了权重大小。下图进一步解释了加权求和的概念。 模块整合 将多头自注意力和稀疏混合专家相结合,形成稀疏混合专家 transformer 块。

    2.8K11编辑于 2024-02-26
  • 来自专栏机器之心

    为内存塞不下Transformer犯愁?OpenAI应用AI研究负责人写了份指南

    (1) 对矩阵中的列进行排列可以在剪枝过程中提供更多可能,以保持参数的数量或满足特殊限制,如 N:M 稀疏性。只要两个矩阵对应的按相同的顺序排列,矩阵乘法的结果就不会改变。 例如,(1) 在自注意力模块中,如果 query 的嵌入矩阵 Q 的 1 和 key 嵌入矩阵 K^⊤的 0 采用相同的排列顺序,则 QK^⊤的矩阵乘法最终结果保持不变。 图 7. Q( 1)和 K^⊤( 0)上相同排列,自注意力模块的结果不变。 (2) 在包含两个 MLP 层和一个 ReLU 非线性层的 FFN 层内,可以将第一个线性权重矩阵 W_1 沿 1 排列,然后第二个线性权重矩阵 W_2 沿 0 按相同顺序排列。 图 8. W_1( 1)和 W_2( 0)上有着相同的排列,可以保持 FFN 层的输出不变。为简单起见,图示省略了偏差项,但也应对它们应用相同的排列。

    2.5K30编辑于 2023-03-29
  • 来自专栏大模型系列

    国产大模型杀疯了!DeepSeek V4 开源 1.6 万亿 MoE,推理成本仅 GPT-4 的 1/70

    2.1MoE基础:稀疏激活的魔法混合专家(MixtureofExperts,MoE)的核心思想是“千军万马,只调精锐”。 2.2双稀疏架构:DeepSeekV4的独门绝技DeepSeekV4在传统MoE基础上,创新性地提出“双稀疏”(Two-AxisSparsity):(1)专家稀疏(ExpertSparsity)动态路由 :门控网络根据输入内容选择最优专家组合;负载均衡:通过辅助损失函数防止专家“偏科”,确保资源均匀利用;通信优化:采用专家并行(ExpertParallelism)减少GPU间数据传输。 (2)注意力稀疏(AttentionSparsity)CSA(CompressedSparseAttention):结合局部窗口与全局采样,降低O(n²)复杂度;HCA(HierarchicalContextAttention ):按语义层级(句子→段落→章节)构建注意力,提升长文本理解;动态稀疏调度:根据内容重要性自动调整稀疏度,关键信息不丢失。

    31820编辑于 2026-05-16
  • 来自专栏大模型系列

    解密DeepSeek-V4 预览版Engram 记忆模块、mHC 稳定训练与百万Token稀疏注意力的三大突破——百万Token上下文的智能压缩引擎

    上下文瓶颈(ContextBottleneck):长文本处理成本高昂→DSA稀疏注意力。 这与MoE(混合专家)实现的条件计算(ConditionalComputation)形成了完美的互补,共同构成了V4的“双稀疏”特性。 第五章:三大突破的协同效应——构建“双稀疏架构”Engram、mHC和DSA这三大技术并非孤立的创新,它们在DeepSeek-V4中形成了一个高度协同的系统。 mHC+MoE:mHC不仅稳定了主干网络,也优化了MoE专家之间的信息流,使得在万亿参数规模下,专家间的协作依然高效可靠。 整体架构:这三大技术共同支撑起了V4的“双稀疏架构”——Engram代表“记忆”稀疏(只检索相关知识),MoE代表“计算”稀疏(只激活相关专家),而DSA则是让这两者能在超长上下文中高效协同的

    54220编辑于 2026-04-29
  • 来自专栏数据派THU

    150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码

    稀疏门控混合专家网络 (MoE) 在自然语言处理中展示了出色的可扩展性。然而,在计算机视觉中,几乎所有的高性能网络都是密集的,也就是说,每个输入都会转化为参数进行处理。 去年 6 月,来自谷歌大脑的研究者提出了 V-MoE(Vision MoE ),这是一种基于专家稀疏混合的新视觉架构。当应用于图像识别时,V-MoE 在推理时只需要一半的计算量,就能达到先进网络性能。 FFN 的稀疏混合(称之为专家)。 x 对应 32 个专家中的每一个,y 显示图像类别的 ID(从 1 到 1000)。图中每个条目都显示了为与特定图像类对应的 token 选择专家的频率,颜色越深表示频率越高。 异构专家架构和条件可变长度路由也是有潜力的研究方向。稀疏模型尤其有益于数据丰富的领域,例如大规模视频建模。他们希望开源的代码和模型能够吸引更多研究人员关注该领域。

    51720编辑于 2022-03-04
  • 来自专栏机器之心

    150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码

    稀疏门控混合专家网络 (MoE) 在自然语言处理中展示了出色的可扩展性。然而,在计算机视觉中,几乎所有的高性能网络都是密集的,也就是说,每个输入都会转化为参数进行处理。 去年 6 月,来自谷歌大脑的研究者提出了 V-MoE(Vision MoE ),这是一种基于专家稀疏混合的新视觉架构。当应用于图像识别时,V-MoE 在推理时只需要一半的计算量,就能达到先进网络性能。 FFN 的稀疏混合(称之为专家)。 x 对应 32 个专家中的每一个,y 显示图像类别的 ID(从 1 到 1000)。图中每个条目都显示了为与特定图像类对应的 token 选择专家的频率,颜色越深表示频率越高。 异构专家架构和条件可变长度路由也是有潜力的研究方向。稀疏模型尤其有益于数据丰富的领域,例如大规模视频建模。他们希望开源的代码和模型能够吸引更多研究人员关注该领域。

    40220编辑于 2022-02-23
  • 来自专栏大模型系列

    万字长文解读 DeepSeek-V4:百万上下文、万亿参数、开源免费,国产大模型迎来JPEG时刻—解密 Engram 记忆模块、MHC 稳定训练与百万Token

    二、核心技术解密:双稀疏架构的范式革命DeepSeek-V4 的强大并非凭空而来,其背后是两大开创性技术的支撑:Engram 条件记忆模块 和 MoE(Mixture of Experts)条件计算。 这两者共同构成了其“记忆-计算分离”的双稀疏架构,这是对传统大模型设计的一次根本性颠覆。1. Engram 条件记忆:给AI配一本“超级活字典”想象一下,让一个学生去参加一场开卷考试。 MoE(混合专家)基础:传统稠密模型在处理任何输入时,都会激活所有的神经元。MoE 架构则将模型拆分成多个“专家子网络”。 MHC 技术就像一位“顶级项目监理”,它通过对专家间连接方式施加数学上的流形约束,确保了信息在专家网络中的流动是平滑、有序且高效的。 它通过“记忆-计算分离”的双稀疏设计,巧妙地绕开了大模型发展的传统瓶颈,将超长上下文、顶级性能和极致性价比融为一体。百万字长文对话只是起点。

    2.7K100编辑于 2026-04-24
  • 来自专栏凯哥讲故事系列

    凯哥 丨 AI 进入存算解耦的新纪元

    过去几年,行业在 MoE 上找出路:让模型“只激活部分专家”,减少每 token 的计算开销。DeepSeek 自家 V3 技术报告本就强调了 MoE 的高效激活路径。 3)存储稀疏:比 MoE 更彻底的“只读我需要的记忆” MoE 是“只算部分专家”,仍然需要路由与激活管理。 Engram 是“只读少量记忆”,并且通过确定性地址减少路由负担。 范式结论:双时代来了——GPU 管智商,RAM 管记忆 我们终于可以把结论写在墙上了: 计算(Compute Axis):负责推理、泛化、策略与“智商”——主要由 GPU 与计算预算决定 记忆(Memory Axis):负责静态知识、局部模式与“博学”——主要由可扩展存储(RAM/NVMe/分层缓存)决定 Engram 把“条件记忆”明确为一种新的稀疏,与 MoE 的条件计算形成互补。 预测 3:MoE 的下一站是“混合稀疏”:算得少 + 记得快 MoE 解决计算稀疏,Engram 解决存储稀疏。二者组合会成为新的工程默认项: MoE 管会想,Engram 管会背。

    30210编辑于 2026-01-22
  • 来自专栏AI进修生

    全球首创4090推理!昆仑万维开源Skywork-MoE模型:2千亿参数架构、训练与评估(技术浅析)

    2024年6月3日,昆仑万维宣布开源 2 千亿稀疏大模型Skywork-MoE , 性能强劲, 同时推理成本更低。 通过MoE架构的稀疏激活机制,可以在不牺牲性能的前提下减少计算资源的需求 小结一下 DeepSpeed为大规模模型提供了强大的优化支持,MoE架构通过专家模块提升了模型的处理能力,而Upcycling技术将二者结合 推理成本低: • 稀疏激活机制:Skywork-MoE利用稀疏激活机制,仅在推理时激活一部分参数(20B),大幅降低计算成本和资源消耗,几乎减少了3倍的推理成本。 3. : • X:Token (B) • Y:训练损失 • 观察: 绿色曲线(init_300b-const)在100B Tokens结束时显示出最低的训练损失。 init_300b-3xLR (红色) • 标签: • X:Token (B) • Y专家相似性 • 观察: 绿色曲线(init_300b-const)在整个训练过程中保持了较高的专家相似性,

    89510编辑于 2024-12-02
  • 来自专栏大模型系列

    不是更大,而是更聪明:DeepSeek-V4用“记忆+专家”双引擎颠覆大模型范式—压缩稀疏注意力、DSA、Lightning Indexer

    其核心创新在于一套名为“双稀疏架构”的系统性设计,该架构由两大引擎驱动:“Engram条件记忆引擎”与“MoE混合专家计算引擎”。 3.1MoE基础:条件计算的威力MoE是一种经典的稀疏化技术。其基本思想是:专家池:模型由多个相对独立的子网络(称为“专家”)组成。 稀疏激活:只选择分数最高的Top-K个专家(通常K=2或4)进行实际计算,并将它们的输出加权融合。 第四章:双引擎协同——DSA稀疏注意力与1M上下文的实现拥有强大的“记忆”和“计算”引擎还不够,如何让它们在1MToken的超长上下文中高效协同工作,是另一大挑战。 4.1DSA:压缩稀疏注意力(CSA)DSA的核心思想是先粗筛,再精算。

    45130编辑于 2026-04-24
  • 来自专栏全栈程序员必看

    计划任务定时关机不执行_IT运维管理制度

    一、软件简介 《定时执行专家》是一款制作精良、功能强大、简单易用的专业级定时任务执行软件。 (图5-2,定时执行专家 – 选择语言对话框) 4、设置软件开机启动,自动运行、自动隐藏(自动隐身运行) 设定方法: (1)点击 “定时执行专家” 菜单项 “设置 – 设置”,打开如下设置对话框(见图5 勾选之后,关闭程序需要在托盘里的“定时执行专家”图标上右键选择“退出”。 解决办法:V5.8版本已修复此问题,下载并使用 V5.8.0.0 (Build 331.31052022) 以上版本,版本号请在关于对话框确认(图6-3)。 (图6-2,调试警告) (图6-3, 定时执行专家 – 关于对话框) 版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。

    2.3K10编辑于 2022-09-30
  • 来自专栏大模型应用

    大模型架构算力对比:Decoder-only、Encoder-Decoder、MoE深度解析.71

    核心差异:注意力机制的计算只在“激活的专家模块”中进行,未激活的专家模块不参与注意力计算,因此实际算力消耗是“稀疏化”的 O (s × n² × d),s是稀疏系数,0 < s < 1,通常远小于1。 热点专家会成为算力瓶颈,所有分配到该专家的 token 都需要排队计算,而冷门专家的资源被闲置,导致整体算力利用率降低,无法达到理论上的稀疏收益。 图片已保存为:大模型架构算力对比图.png")结果图示:图例说明:子图 1(普通坐标):可以看到 Encoder-Decoder 和 Decoder-only 的算力曲线快速上升,MoE 的曲线几乎贴近 x , 为模型优化提供思路:理解注意力机制、激活稀疏性、KV 缓存等核心算力消耗点,可以为模型优化提供明确的思路,如稀疏注意力、KV 缓存压缩、专家负载均衡优化等。 MoE 依靠稀疏激活,仅让少量专家参与计算来大幅节省算力,但也面临门控网络开销、专家负载不均、跨设备通信成本高三大瓶颈。

    33743编辑于 2026-04-09
  • 来自专栏算法一只狗

    给大模型配一本“速查手册”:DeepSeek 的 Engram 到底解决了什么问题?

    主流MoE的核心是ConditionalComputation:每个token只激活少量专家,用稀疏计算扩大模型容量。DeepSeek这次提出了另一条稀疏:ConditionalMemory。 MoE:路由依赖运行时hiddenstates(动态、计算稀疏)Engram:检索索引只依赖输入token序列(确定性、存储稀疏)于是模型不再“全靠算”,而是在前向里多了一步:查一下“这个上下文我见过没 关键发现:SparsityAllocation出现“U型规律”,MoE和Memory要配比论文中提出一个很有意思的实验设问:在固定总参数预算下,MoE专家参数与Engram记忆参数,怎么分配最好? 结果是U-shapedscalinglaw:纯MoE(全给专家)并不是最优;把大约20%–25%的稀疏预算挪给Engram,验证损失更低,最优点在不同规模/算力下都相对稳定(约ρ≈75%–80%给MoE 目前DeepSeek在走极致化的“稀疏”路线:MoE:计算的稀疏化Engram:存储的稀疏化如果这条路跑通,未来可能出现一种很有代表性的架构形态:小而精的推理核心+可扩展、可更新的超大记忆库。

    1K40编辑于 2026-01-16
领券