首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 深度学习前沿:稀疏专家模型(MoE)门控机制的探索

    稀疏专家模型(MoE)概述 在深度学习领域,稀疏专家模型(Mixture of Experts, MoE)正成为处理超大规模模型的重要范式。 与传统稠密模型不同,MoE在每次前向传播时仅激活部分专家(通常为1-2个),这种稀疏激活特性使其参数量可以指数级增长而不显著增加计算成本。 2021年Google推出的Switch Transformer将专家数量扩展到数千个,验证了超大规模稀疏模型的可行性。 负载均衡的数学建模 在稀疏专家模型(MoE)的架构中,负载均衡问题直接决定了模型的计算效率和资源利用率。 未来展望与挑战 技术演进的三重突破方向 当前稀疏专家模型(MoE)的门控机制正面临从"可用"到"好用"的关键跃迁阶段。

    1.7K10编辑于 2025-08-27
  • 来自专栏智能生信

    稀疏混合专家融合是领域泛化的学习者

    在这项工作中,作者通过利用分布式处理跨领域预测特征的多个方面,揭示了混合专家(MoE)模型在DG上的可泛化性。 为此,作者提出了稀疏融合混合专家模型(SF-MoE),该模型将稀疏性和融合机制结合到MoE框架中,以保持模型的稀疏性和预测性。 SF-MoE有两个专用模块:稀疏块和融合块,分别对对象的不同学习信号进行分离和聚合。大量实验表明,SF-MoE是大规模基准测试领域的可泛化学习者。

    51420编辑于 2022-12-29
  • 来自专栏月色的自留地

    从锅炉工到AI专家(9)

    Epoch 8 Step 1207755: lr = 0.015 words/sec = 401 Eval 4965/17827 accuracy = 27.9% Epoch 9

    82460发布于 2018-06-20
  • 来自专栏时空探索之旅

    Moirai-MoE: 稀疏混合专家赋能时间序列基础模型

    频率挑战 为了解决上述问题,作者提出了全新的时间序列统一训练解决方案Moirai-MoE,其核心思想是利用单个输入/输出投影层,同时将各种时间序列模式的建模委托给 Transformer层中的稀疏混合专家 基于稀疏混合专家的时序基础模型 Moirai-MoE构建在它的前序工作Moirai之上。 但其主要改进在于:Moirai-MoE不使用多个启发式定义的输入/输出投影层来对具有不同频率的时间序列进行建模,而是使用单个输入/输出投影层,同时将捕获不同时间序列模式的任务委托给Transformer中的稀疏混合专家 稀疏混合专家Transformer 通过用MoE层替换Transformer的每个FFN来建立专家混合层。该MoE层由个专家网络和一个门控函数组成。 每个token只激活一个专家子集,从而允许专家专注于不同模式的时间序列数据并确保计算效率。在Moirai-MoE中,作者探索了不同的门控函数。

    75400编辑于 2024-11-19
  • 来自专栏机器之心

    可与ViT一较高下,DeepMind从稀疏转向Soft混合专家模型

    稀疏混合专家模型(MoE)是一种很有前途的替代方案,可以在计算成本较少的情况下,扩展模型的大小。 稀疏 MoE Transformer 有一个关键的离散优化问题:决定每个输入 token 应该使用哪些模块。这些模块通常是称为专家的 MLP。 论文地址:https://arxiv.org/pdf/2308.00951.pdf Soft MoE 不采用稀疏且离散的路由器在 token 和专家之间进行硬分配(hard assignment),而是通过混合 作为对比,稀疏 MoE 方法通常采用的是硬分类。 其次 Soft MoE 没有 token dropping 和专家不平衡。 因此,Soft MoE 的速度明显要快于大多数稀疏 MoE,具体如下图 6 所示。 Soft MoE 还兼具稀疏和密集的特点。稀疏 MoE 的稀疏性来自于专家参数仅应用于输入 token 的子集。

    35410编辑于 2023-09-08
  • 来自专栏大模型系列

    解密 DeepSeek V4:双稀疏 MoE + Engram 记忆 + Muon 优化器,如何打造高效万亿模型?

    其采用先进的双稀疏设计、优化的混合注意力机制、全栈国产化适配等关键技术,构建了一个高效、普惠、安全的大模型生态系统。 在推理过程中,通过一个“门控网络”(GatingNetwork)动态选择最合适的专家组合,实现稀疏激活。 2.2双稀疏架构(Two-AxisSparsity)DeepSeekV4最核心的创新之一是“双稀疏架构”,即在两个维度上同时实现稀疏化:2.2.1专家维度稀疏(ExpertSparsity)专家维度稀疏是 通过双稀疏架构,DeepSeekV4成功将100万Token上下文的推理计算量压缩至前代模型的个位数百分比,实现了长文本处理的革命性突破。 其创新的MoE架构、双稀疏设计、混合注意力机制、Engram记忆架构等技术突破,不仅解决了超大规模模型的效率问题,更在长上下文处理、推理性能、成本控制等方面实现了全面领先。

    22220编辑于 2026-05-16
  • 来自专栏大模型系列

    打破幻觉与成本魔咒:DeepSeek-V4 如何用双稀疏架构重塑大模型未来?

    DeepSeek-V4的“双稀疏架构”正是对这一时代命题的响亮回答。 第二章:核心理念——从“单”到“双”的范式跃迁在DeepSeek-V4之前,主流的稀疏化技术是混合专家(MixtureofExperts,MoE)。 MoE通过为每个输入Token动态选择激活少量“专家”子网络,实现了条件计算(ConditionalComputation),即只在需要时才进行计算。这是一种单稀疏,其稀疏性仅体现在“计算”维度上。 这构成了其双稀疏架构的核心:第一:MoE-条件计算:负责动态的、复杂的逻辑推理和创造性任务。第二:Engram-条件记忆:负责高效、精准地存储和检索静态的、确定性的事实知识。 这场由“双稀疏”引发的架构革命,正在深刻地重塑大模型的未来格局。

    43220编辑于 2026-04-24
  • 来自专栏云深之无迹

    BLE姿态测量模块-9版本(加速度,陀螺仪,磁场)

    像自己封装的芯片,查不到了,反正看应该是一颗9传感器,加速度,陀螺仪,三轴角度。 ADXL345,才是三陀螺仪+三加速度 角度是积分积出来的:计算角度需要角速度和时间积分。

    28910编辑于 2024-11-08
  • 来自专栏机器之心

    30年历史回顾,Jeff Dean:我们整理了一份「稀疏专家模型」研究综述

    机器之心报道 机器之心编辑部 30年时间,稀疏专家模型已逐渐成为一种很有前途的解决方案。 稀疏专家模型是一个已有 30 年历史的概念,至今依然被广泛使用,是深度学习中的流行架构。 近日,谷歌 AI 负责人 Jeff Dean 等人撰写了一篇稀疏专家模型的综述,回顾了稀疏专家模型的概念,提供了通用算法的基本描述,最后展望了未来的研究方向。 稀疏专家模型已成为一种很有前途的解决方案。 稀疏专家模型(其中,混合专家系统(MoE)是最流行的变体)是一种特殊的神经网络,其中一组参数被划分为 “专家”,每个“专家” 具有唯一的权重。 ., 2021),进一步复杂化了对稀疏专家模型的理解。 上游扩展 稀疏专家模型在大型数据集上训练时表现出色。 稀疏专家模型的迅速发展 稀疏专家模型的影响正在迅速蔓延到NLP以外的其他领域,包括计算机视觉、语音识别和多模态应用。

    72530编辑于 2022-10-08
  • 来自专栏数据派THU

    独家 | 每个业务分析专家应具备的9个关键技能

    作者:ABHIRAJ SURESH 翻译:Kay 校对:李嘉骐 本文长度为2900字,建议阅读10+分钟 本文为大家介绍了每个业务分析专家应具备的9个关键技能,并对每个技能做了简单的介绍。 本文接下来将要介绍商业分析师(BA)与业务分析专家(BAP)之间的区别,以及成为业务分析专家所必须的9项基本技能。 在以下各节中,我们将介绍成为一个业务分析专家(BAP)应具备的关键技能。 业务分析专家所需的技术技能 让我们看看成为优秀的业务分析专家所需的技术和理论技能。 结论 本文中,我们了解了业务分析行业所需的9大基本技能。此外,我们介绍了业务分析专业的历史,并简要说明了商业分析人员和业务分析专业人员之间的区别。 /blog/2020/09/9-key-skills-business-analytics-professional/ 编辑:黄继彦 校对:林亦霖 译者简介 Kay,新西兰奥克兰理工大学计算机科学研究生毕业

    1K20发布于 2020-09-30
  • 来自专栏架构随笔录

    如何晋升为阿里巴巴P9技术专家

    在阿里巴巴这样的大型企业中,技术专家级别的职位是非常重要的。要想晋升为P9技术专家,需要具备一定的技能和经验,并且需要付出大量的努力和时间。 本文将介绍如何晋升为阿里巴巴P9技术专家的相关知识。 章节一:了解阿里巴巴的晋升机制 在开始谈论如何晋升为P9技术专家之前,我们需要了解阿里巴巴的晋升机制。阿里巴巴的技术专家职位晋升分为以下几个阶段:P6、P7、P8、P9。 P6是初级专家,P7是高级专家,P8是专家专家,P9是超级专家。每个阶段都需要具备一定的技能和经验,并且需要经过一定的培训和考核。 2.参加P9级别的培训和考核:参加P9级别的培训和考核可以帮助自己掌握必要的技能和经验,并且能够提高自己的综合素质,晋升到P9技术专家级别。 章节五:阿里巴巴P9技术专家具备以下几个硬实力 1. 丰富的行业经验:作为P9技术专家,他们在互联网行业已经积累了10年以上的从业经验。

    1.3K50编辑于 2023-08-18
  • 来自专栏机器之心

    手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)

    选自huggingface 机器之心编译 机器之心编辑部 本文介绍了实现一个稀疏混合专家语言模型(MoE)的方法,详细解释了模型的实施过程,包括采用稀疏混合专家取代传统的前馈神经网络,实现 top-k 内容简介 在混合专家模型 Mixtral 发布后,混合专家模型(MoE)越来越受到人们的关注。在稀疏化的混合专家语言模型中,大部分组件都与传统的 transformers 相同。 不过,每个区块的结构发生了巨大的变化:标准的前馈神经网络被多个稀疏激活的前馈网络(即专家网络)所取代。所谓「稀疏激活」,是指序列中的每个 token 只被分配给有限数量的专家(通常是一个或两个)。 这个过程的关键和难点是避免不必要的乘法运算,只为前 k 名专家进行正向转播。为每个专家执行前向传播将破坏使用稀疏 MoE 的目的,因为这个过程将不再是稀疏的。 索引确定了被激活的专家是哪些, 对应的值又决定了权重大小。下图进一步解释了加权求和的概念。 模块整合 将多头自注意力和稀疏混合专家相结合,形成稀疏混合专家 transformer 块。

    2.8K11编辑于 2024-02-26
  • 来自专栏机器之心

    为内存塞不下Transformer犯愁?OpenAI应用AI研究负责人写了份指南

    (1) 对矩阵中的列进行排列可以在剪枝过程中提供更多可能,以保持参数的数量或满足特殊限制,如 N:M 稀疏性。只要两个矩阵对应的按相同的顺序排列,矩阵乘法的结果就不会改变。 例如,(1) 在自注意力模块中,如果 query 的嵌入矩阵 Q 的 1 和 key 嵌入矩阵 K^⊤的 0 采用相同的排列顺序,则 QK^⊤的矩阵乘法最终结果保持不变。 图 7. Q( 1)和 K^⊤( 0)上相同排列,自注意力模块的结果不变。 W_1( 1)和 W_2( 0)上有着相同的排列,可以保持 FFN 层的输出不变。为简单起见,图示省略了偏差项,但也应对它们应用相同的排列。 图 9. 贪心算法实现迭代地寻找 N:M 稀疏化最佳排列的算法。 与按默认通道顺序对网络进行剪枝相比,如果在剪枝之前对网络进行置换,可以获得更好的性能。

    2.5K30编辑于 2023-03-29
  • AbMole | 揭示SIRT6-H3K9la-MGMT:提升TMZ敏感性关键通路

    检测发现,在耐药细胞中,组蛋白H3第9位赖氨酸的乳酰化(H3K9la)水平显著升高。 同时,耐药细胞内的乳酸水平和乳酸脱氢酶A(LDHA)的表达也相应升高,外源添加乳酸能直接增加H3K9la水平。 这些数据层层递进,完整地勾勒出了“SIRT6核内缺失 → H3K9乳酰化水平升高 → MGMT转录激活 → TMZ耐药”这一全新的表观遗传调控。最后,研究者在体内外模型中验证了靶向此通路的干预潜力。 这些结果从转化医学角度证实,通过药理性激活SIRT6来抑制H3K9la-MGMT,是克服GBM中TMZ耐药的有效策略。 这一发现不仅深化了对TMZ耐药表观遗传机制的理解,更重要的是,指出了SIRT6-H3K9la-MGMT是一个极具潜力的干预靶点。

    26210编辑于 2026-01-14
  • 来自专栏网络虚拟化

    国内顶级网络专家科普背板以太网技术9--10GBASE-KR(二)

    O0=Q=0x9c;D1D2D3 = 0x000000: Reserved; D1D2D3 = 0x000001: Local Fault; D1D2D3 = 0x000002: Remote Fault ; D1D2D3 = 0x000003: Link Interruption; O4=Q=0x9c;D5D6D7 = 0x000000: Reserved; D5D6D7 = 0x000001: Local

    2K10编辑于 2024-09-18
  • 来自专栏深度学习与python

    前阿里 P9:技术专家比架构师差在哪?| 极客时间

    我经常思考一个问题:技术专家 = 架构师吗?如果≠,这两者之间差在哪? 按理来说,能成长为技术专家的人,技术过硬、业务熟悉,在公司资历也够深,弄个架构也不是难事。 为什么很多公司在已有技术专家的前提下,还不惜重金聘请架构师空降… 这事网上一直众说纷纭,但之前看到有个观点我印象还挺深刻的,说架构师是基于架构设计方法论进行架构设计,而技术专家更多是基于经验进行架构设计 架构这块,我很佩服李运华,开头提到“架构师与技术专家的区别”的观点也是出自他口。 顺便分享一份他总结的 架构师技能图谱,把零散的概念系统地整理在一起,是我的压箱底存货: 华仔是前阿里 P9,从事研发架构工作十几年,曾就职于华为、UC、阿里巴巴、蚂蚁金服等公司,先后担任软件开发工程师 限时优惠: 秒杀 + 专属口令「jiagou999」 立省 ¥90,到手仅 ¥109 仅限前 50 个名额 阿里 P9 不常有,系统把自己的精华思考和丰富工作经验分享出来的 P9 则更少。

    1.2K10编辑于 2023-04-01
  • 来自专栏大模型系列

    国产大模型杀疯了!DeepSeek V4 开源 1.6 万亿 MoE,推理成本仅 GPT-4 的 1/70

    2.1MoE基础:稀疏激活的魔法混合专家(MixtureofExperts,MoE)的核心思想是“千军万马,只调精锐”。 2.2双稀疏架构:DeepSeekV4的独门绝技DeepSeekV4在传统MoE基础上,创新性地提出“双稀疏”(Two-AxisSparsity):(1)专家稀疏(ExpertSparsity)动态路由 :门控网络根据输入内容选择最优专家组合;负载均衡:通过辅助损失函数防止专家“偏科”,确保资源均匀利用;通信优化:采用专家并行(ExpertParallelism)减少GPU间数据传输。 (2)注意力稀疏(AttentionSparsity)CSA(CompressedSparseAttention):结合局部窗口与全局采样,降低O(n²)复杂度;HCA(HierarchicalContextAttention ):按语义层级(句子→段落→章节)构建注意力,提升长文本理解;动态稀疏调度:根据内容重要性自动调整稀疏度,关键信息不丢失。

    31820编辑于 2026-05-16
  • 来自专栏云鼎实验室的专栏

    9月15日19点腾讯安全专家带你揭秘

    9月15日(周四)19:00,腾讯安全将带来《新型漏洞威胁攻防思路拆解》主题公开课,邀请尹亮、赵中树两位深耕网络安全行业10余载的腾讯安全技术专家带来分享,深入剖析漏洞攻击典型案例及腾讯防护新思路,帮助企业从攻击者视角 公开课议程及嘉宾简介 议题:重保期间新型漏洞攻击案例拆解  9月15日周四晚 19:00 - 19:30 尹亮,Pwn2Own世界冠军战队成员、腾讯安全技术专家 专注于JAVA、Windows/Linux 议题:腾讯漏洞防护新思路 9月15日周四晚 19:30 - 20:00 赵中树,腾讯安全技术专家 十年信息安全从业经验。主要研究方向: 主机安全、网络安全、入侵检测及漏洞防御等。 预告一个彩蛋 此外,本期公开课专家将会首次揭秘腾讯安全RASP+泰石引擎漏洞防护方案,起底相比于主流RASP方案,加在哪?腾讯有哪些新思考、新解法?

    1.1K50编辑于 2022-09-15
  • 来自专栏大模型系列

    解密DeepSeek-V4 预览版Engram 记忆模块、mHC 稳定训练与百万Token稀疏注意力的三大突破——百万Token上下文的智能压缩引擎

    上下文瓶颈(ContextBottleneck):长文本处理成本高昂→DSA稀疏注意力。 这与MoE(混合专家)实现的条件计算(ConditionalComputation)形成了完美的互补,共同构成了V4的“双稀疏”特性。 第五章:三大突破的协同效应——构建“双稀疏架构”Engram、mHC和DSA这三大技术并非孤立的创新,它们在DeepSeek-V4中形成了一个高度协同的系统。 mHC+MoE:mHC不仅稳定了主干网络,也优化了MoE专家之间的信息流,使得在万亿参数规模下,专家间的协作依然高效可靠。 整体架构:这三大技术共同支撑起了V4的“双稀疏架构”——Engram代表“记忆”稀疏(只检索相关知识),MoE代表“计算”稀疏(只激活相关专家),而DSA则是让这两者能在超长上下文中高效协同的

    54220编辑于 2026-04-29
  • 来自专栏Java核心技术

    【强烈推荐】顶级网络安全专家都爱用的9大工具,错过血亏!

    前言 网络安全专家,不是你认为的那种搞破坏的“黑客”。 网络安全专家,即 “ethical hackers”,是一群专门模拟网络安全专家攻击,帮助客户了解自己网络的弱点,并为客户提出改进建议的网络安全专家。 图片 网络安全专家在工作中,通常会使用哪些工具和软件?今天我们来看看 9 个网络安全专家最常用的软件工具分别是哪些,小编这里也收集了常用的网络安全学习笔记,有需要的小伙伴可以自取。 1. Nmap (Network Mapper) 网络映射器 Nmap 用于端口扫描,网络安全专家攻击的阶段之一,是有史以来最好的网络安全专家工具。 图片 其特点包括: • 识别缺少的补丁、错误配置和常见的 Web 应用程序问题 • 与 Slack、Jira 和主要云提供商集成 • 根据上下文确定结果的优先级 • 主动扫描系统以查找最新漏洞 9.

    1.5K30编辑于 2023-03-22
领券