首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型系列

    解密 DeepSeek V4:双稀疏 MoE + Engram 记忆 + Muon 优化器,如何打造高效万亿模型?

    DeepSeekV4不仅是参数规模的简单堆叠,更是系统性工程创新的集大成者。其采用先进的双稀疏设计、优化的混合注意力机制、全栈国产化适配等关键技术,构建了一个高效、普惠、安全的大模型生态系统。 2.2双稀疏架构(Two-AxisSparsity)DeepSeekV4最核心的创新之一是“双稀疏架构”,即在两个维度上同时实现稀疏化:2.2.1专家维度稀疏(ExpertSparsity)专家维度稀疏是 通过双稀疏架构,DeepSeekV4成功将100万Token上下文的推理计算量压缩至前代模型的个位数百分比,实现了长文本处理的革命性突破。 6.2未来发展方向基于当前的技术积累,DeepSeekV4的未来发展将聚焦以下几个方向:6.2.1架构持续优化更高效的稀疏机制:探索动态稀疏度调整,进一步提升计算效率;更好的负载均衡:改进专家选择策略, 其创新的MoE架构、双稀疏设计、混合注意力机制、Engram记忆架构等技术突破,不仅解决了超大规模模型的效率问题,更在长上下文处理、推理性能、成本控制等方面实现了全面领先。

    22220编辑于 2026-05-16
  • 来自专栏大模型系列

    打破幻觉与成本魔咒:DeepSeek-V4 如何用双稀疏架构重塑大模型未来?

    V4并非简单的参数堆砌,而是通过一场深刻的架构革命——双稀疏架构,从根本上重构了大模型的“记忆”与“计算”范式。 DeepSeek-V4的“双稀疏架构”正是对这一时代命题的响亮回答。 第二章:核心理念——从“单”到“双”的范式跃迁在DeepSeek-V4之前,主流的稀疏化技术是混合专家(MixtureofExperts,MoE)。 MoE通过为每个输入Token动态选择激活少量“专家”子网络,实现了条件计算(ConditionalComputation),即只在需要时才进行计算。这是一种单稀疏,其稀疏性仅体现在“计算”维度上。 通过将这两个功能解耦,V4实现了前所未有的效率和准确性。第三章:双架构详解——三大核心技术支柱DeepSeek-V4的双稀疏架构并非空中楼阁,而是由三大相互支撑、协同工作的核心技术共同构建而成。

    43220编辑于 2026-04-24
  • 来自专栏Python机器学习算法说书人

    SciPy 稀疏矩阵(4):LIL(下)

    上回说到,LIL 通过把稀疏矩阵看成是有序稀疏向量组,通过对稀疏向量组中的稀疏向量进行压缩存储来达到压缩存储稀疏矩阵的目的。这一回从图数据结构开始! 稀疏矩阵的邻接表存储 不失一般性,我们假设有这么一个图,第一,它是一个二分图;第二,它是一个有向图;第三,在其中只有从一种类别的节点指向另一种类别的节点的边(不能反过来);第四,它是一个带权图,其中边的权重是任意非零实数 接下来我们就尝试把它往 LIL 格式的稀疏矩阵上面凑!首先把每一个链表按照绿框中的关键字升序排序,显然这里已经排好序了。 至此,我们成功的通过图数据结构凑出了 LIL 格式的稀疏矩阵

    46710编辑于 2024-05-06
  • 来自专栏Python机器学习算法说书人

    SciPy 稀疏矩阵(4):LIL(上)

    至于存储方式也不需要我们去实现,SciPy 已经实现了这样的稀疏矩阵存储方式,它就是另一个板块,这个板块共有 4稀疏矩阵格式,分别是{BSR, CSC, CSR, LIL},这一回先介绍 LIL 格式的稀疏矩阵 (0) >>> mtx = sparse.lil_matrix((4, 5)) 通过高阶索引给矩阵的部分元素赋值: >>> from numpy.random import rand >>> data rand(2, 3)) >>> data array([[1., 1., 1.], [1., 0., 1.]]) >>> mtx[:2,[1, 2, 3]] = data >>> mtx <4x5 ) 2 (1, 0) 3 (1, 2) 1 (2, 0) 1 (2, 3) 1 >>> mtx[:2,:] <2x4 sparse matrix of type '<class 'numpy.intc'>' with 4 stored elements in List of Lists format>

    77810编辑于 2024-01-12
  • 来自专栏具身小站

    4SCARA与6协作机器人:工程对比

    运动学对比 根据机械臂的 D-H 参数建立相邻连杆空间位姿模型,两种臂型方案中机械臂末端执行器的 D-H 空间坐标系模型如图 SCARA 机械臂只有四个自由度,包括大臂、小臂的回转运动、末端执行器绕 Z 旋转和沿 Z 上下运动D-H 连杆参数如下 六关节机械臂拥有完整的六个自由度,且相比 SCARA 机械臂运动位姿更加灵活,六关节机械臂的手 - 臂 D-H 连杆参数如下 04 空间可达区域对比 使用蒙特卡洛法对两种备选臂型方案的手

    25310编辑于 2026-03-04
  • 深度学习前沿:稀疏专家模型(MoE)门控机制的探索

    稀疏专家模型(MoE)概述 在深度学习领域,稀疏专家模型(Mixture of Experts, MoE)正成为处理超大规模模型的重要范式。 2021年Google推出的Switch Transformer将专家数量扩展到数千个,验证了超大规模稀疏模型的可行性。 负载均衡的数学建模 在稀疏专家模型(MoE)的架构中,负载均衡问题直接决定了模型的计算效率和资源利用率。 未来展望与挑战 技术演进的三重突破方向 当前稀疏专家模型(MoE)的门控机制正面临从"可用"到"好用"的关键跃迁阶段。 当专家数量突破 10410^4 量级时,现有GPU显存带宽已成为路由决策的瓶颈。2025年初某头部厂商的测试数据显示,传统All-to-All通信模式在4096专家配置下会产生高达72%的通信开销。

    1.7K10编辑于 2025-08-27
  • 来自专栏智能生信

    稀疏混合专家融合是领域泛化的学习者

    在这项工作中,作者通过利用分布式处理跨领域预测特征的多个方面,揭示了混合专家(MoE)模型在DG上的可泛化性。 为此,作者提出了稀疏融合混合专家模型(SF-MoE),该模型将稀疏性和融合机制结合到MoE框架中,以保持模型的稀疏性和预测性。 SF-MoE有两个专用模块:稀疏块和融合块,分别对对象的不同学习信号进行分离和聚合。大量实验表明,SF-MoE是大规模基准测试领域的可泛化学习者。

    51420编辑于 2022-12-29
  • 来自专栏时空探索之旅

    Moirai-MoE: 稀疏混合专家赋能时间序列基础模型

    频率挑战 为了解决上述问题,作者提出了全新的时间序列统一训练解决方案Moirai-MoE,其核心思想是利用单个输入/输出投影层,同时将各种时间序列模式的建模委托给 Transformer层中的稀疏混合专家 基于稀疏混合专家的时序基础模型 Moirai-MoE构建在它的前序工作Moirai之上。 但其主要改进在于:Moirai-MoE不使用多个启发式定义的输入/输出投影层来对具有不同频率的时间序列进行建模,而是使用单个输入/输出投影层,同时将捕获不同时间序列模式的任务委托给Transformer中的稀疏混合专家 稀疏混合专家Transformer 通过用MoE层替换Transformer的每个FFN来建立专家混合层。该MoE层由个专家网络和一个门控函数组成。 这一观察结果与GPT4TS的结论一致:随着层深度增加,token会被投影到输入的低维顶部特征向量空间中。 更多实验结果,可参考原论文。 如果觉得有帮助还请分享,在看,点赞

    75400编辑于 2024-11-19
  • 来自专栏月色的自留地

    从锅炉工到AI专家(4)

    “单词向量化”的问题属于比较专业化的问题,我也不是专家,以后如果有机会我们再分享。 数据预处理 由数据规范化带来的数据预处理问题往往很复杂,几乎每一个机器学习系统中都可能有不同的实现。

    82170发布于 2018-06-20
  • 来自专栏机器之心

    可与ViT一较高下,DeepMind从稀疏转向Soft混合专家模型

    稀疏混合专家模型(MoE)是一种很有前途的替代方案,可以在计算成本较少的情况下,扩展模型的大小。 稀疏 MoE Transformer 有一个关键的离散优化问题:决定每个输入 token 应该使用哪些模块。这些模块通常是称为专家的 MLP。 作为对比,稀疏 MoE 方法通常采用的是硬分类。 其次 Soft MoE 没有 token dropping 和专家不平衡。 因此,Soft MoE 的速度明显要快于大多数稀疏 MoE,具体如下图 6 所示。 Soft MoE 还兼具稀疏和密集的特点。稀疏 MoE 的稀疏性来自于专家参数仅应用于输入 token 的子集。 首先研究者训练了从 Small 到 Huge 的不同大小的 ViT 和 Soft MoE 模型,它们运行了 4 百万 step。下图 4 和表 2 展示了结果。

    35410编辑于 2023-09-08
  • 来自专栏大模型系列

    不是更大,而是更聪明:DeepSeek-V4用“记忆+专家”双引擎颠覆大模型范式—压缩稀疏注意力、DSA、Lightning Indexer

    其核心创新在于一套名为“双稀疏架构”的系统性设计,该架构由两大引擎驱动:“Engram条件记忆引擎”与“MoE混合专家计算引擎”。 3.1MoE基础:条件计算的威力MoE是一种经典的稀疏化技术。其基本思想是:专家池:模型由多个相对独立的子网络(称为“专家”)组成。 稀疏激活:只选择分数最高的Top-K个专家(通常K=2或4)进行实际计算,并将它们的输出加权融合。 3.3V4的MoE配置V4-Pro:总参数约1.6T,由128个专家组成,每次激活4专家,激活参数约49B。V4-Flash:总参数284B,由64个专家组成,每次激活2个专家,激活参数约13B。 4.1DSA:压缩稀疏注意力(CSA)DSA的核心思想是先粗筛,再精算。

    45130编辑于 2026-04-24
  • 来自专栏机器之心

    30年历史回顾,Jeff Dean:我们整理了一份「稀疏专家模型」研究综述

    稀疏专家模型已成为一种很有前途的解决方案。 稀疏专家模型(其中,混合专家系统(MoE)是最流行的变体)是一种特殊的神经网络,其中一组参数被划分为 “专家”,每个“专家” 具有唯一的权重。 ., 2021),进一步复杂化了对稀疏专家模型的理解。 上游扩展 稀疏专家模型在大型数据集上训练时表现出色。 ., 2021) 在 T5 模型上使用相同的计算资源测量到 4-7 倍的 wall-time 加速。该工作还研究了作为参数计数函数的交叉熵损失扩展,但观察到超过 256 位专家时,收益减少了。 在一项强调迁移挑战的工作中,Fedus et al. (2021)使用低计算、高参数编码器 - 解码器 Transformer(1.6T 参数,每个稀疏层有 2048 个专家)观察到 4 倍的预训练改进 ., 2020),同时在推理时每个token使用的 FLOP 减少了 49%,功耗降低了 65% (如下图4(左)所示)。下图 4 (右) 是稀疏模型在少样本推理上表现良好的另一个例子。

    72530编辑于 2022-10-08
  • 来自专栏机器之心

    手把手教你,从零开始实现一个稀疏混合专家架构语言模型(MoE)

    选自huggingface 机器之心编译 机器之心编辑部 本文介绍了实现一个稀疏混合专家语言模型(MoE)的方法,详细解释了模型的实施过程,包括采用稀疏混合专家取代传统的前馈神经网络,实现 top-k 内容简介 在混合专家模型 Mixtral 发布后,混合专家模型(MoE)越来越受到人们的关注。在稀疏化的混合专家语言模型中,大部分组件都与传统的 transformers 相同。 不过,每个区块的结构发生了巨大的变化:标准的前馈神经网络被多个稀疏激活的前馈网络(即专家网络)所取代。所谓「稀疏激活」,是指序列中的每个 token 只被分配给有限数量的专家(通常是一个或两个)。 这个过程的关键和难点是避免不必要的乘法运算,只为前 k 名专家进行正向转播。为每个专家执行前向传播将破坏使用稀疏 MoE 的目的,因为这个过程将不再是稀疏的。 索引确定了被激活的专家是哪些, 对应的值又决定了权重大小。下图进一步解释了加权求和的概念。 模块整合 将多头自注意力和稀疏混合专家相结合,形成稀疏混合专家 transformer 块。

    2.8K11编辑于 2024-02-26
  • 来自专栏北京马哥教育

    2017 年成为 Linux 专家4 个热门技能

    -- Shawn Powers 本文导航 -1、 安全17% -2、 DevOps34% -3、 开发49% -4、 软技能64% 编译自: https://opensource.com/article /17/1/yearbook-4-hot-skills-linux-pros-2017 作者: Shawn Powers 译者: geekpi 你在新的一年里需要刷哪些技能? 成为 Linux 专家的一个问题是“专家”的定义在不断变化。当我进入 Linux 世界的时候,那时认为成为一个 Linux 专家,你需要能够编译自己的内核。 虽然“专家”的定义并不总是那么剧烈变化,但对 IT 专业人员的需求每年都在变化。想要成为一名光荣的“ Linux 专家”,就必须搞明白不断变化的“专家”的实质意义。 在我刚接触 Linux 的时候,专家的定义对我而言遥不可及:所谓的专家,必须能够便以自己的内核才行。

    88070发布于 2018-05-03
  • 来自专栏灯塔大数据

    4专家解读2015大数据技术进展

    在关键技术进展部分,从大数据生态圈众多技术中选取了Hadoop、Spark、Elasticsearch和Apache Kylin四个点,分别请了四位专家:Hulu的董西成、明略数据的梁堰波、精硕科技的卢亿雷 ●可配置的store compression 存储的field,例如_source字段,可以使用默认的LZ4算法快速压缩,或者使用DEFLATE算法减少index size。 ●2015年4月,亚马逊启动其机器学习平台Amazon Machine Learning,这是一项全面的托管服务,让开发者能够轻松使用历史数据开发并部署预测模型。 专家介绍: 董西成 就职于Hulu,专注于分布式计算和资源管理系统等相关技术。 卢亿雷 精硕科技(AdMaster)技术副总裁兼总架构师,大数据资深专家,CCF(中国计算学会)大数据专委委员,北航特聘教授。

    96370发布于 2018-04-10
  • 来自专栏UG数控编程

    数控UG编程技术提升:4最常见槽螺旋加工思路

    image.png 切削方向选择从上到下,顺铣 image.png 材料方向箭头朝向要加工区域 image.png 因是粗加工留0.1余量,驱动设置选择螺旋,公差0.01 image.png (3)刀选择 4,相对与驱动体,侧倾90° image.png (4)切削参数,检查几何体,过切时跳过,安全距离0.01 image.png (5)确定后,计算刀路 image.png 旋转之后刀路如图

    1.2K20发布于 2020-05-15
  • 来自专栏安恒信息

    专家提醒用户警惕变身蠕虫的《变形金刚4

    上周五,《变形金刚4:绝迹重生》在国内和北美同步上映。虽然此片在北美恶评如潮,但仍然阻止不了中国影迷的观影狂潮,创下了首周三天狂卷6亿票房的新纪录。 专家表示,每逢热门影视节目上映期间,不法分子就会借网民对热门话题的关注度制作病毒木马并伺机传播,而诸如《变形金刚4》这类全球热议的好莱坞大片,更是病毒木马伪装自己的绝好“外衣”。 就此安全专家提醒广大网民,商业影片出于版权和票房的考虑不会在院线热映期间同步在网络上播出,但凡发现社交平台上出现热映影片同名文件一定要提高警惕,谨防落入病毒陷阱;而在影片下线后选择网络观看的网友也要从正规渠道下载种子文件

    68740发布于 2018-04-11
  • 来自专栏机器之心

    为内存塞不下Transformer犯愁?OpenAI应用AI研究负责人写了份指南

    例如,英伟达 A100 GPU 的稀疏张量核心支持 2:4 稀疏度以加快推理速度。 图 6. 2:4 结构化稀疏矩阵及其压缩表示。 为了使密集型神经网络的稀疏化遵循 N:M 结构化稀疏模式,英伟达建议使用三步操作来训练剪枝后的网络:训练 –> 剪枝以满足 2:4 稀疏性 –> 重新训练。 Q( 1)和 K^⊤( 0)上相同排列,自注意力模块的结果不变。 (a) 稀疏 FFN 层;红色列未加载到内存中以进行更快的推理。(b) 1:4 稀疏度的稀疏 FFN 控制器。 4.

    2.5K30编辑于 2023-03-29
  • 来自专栏大模型系列

    DeepSeek V4 开源 1.6 万亿 MoE,推理成本仅 GPT-4 的 170

    GPT-4的1/70的混合专家(MoE)大模型。 2.1MoE基础:稀疏激活的魔法混合专家(MixtureofExperts,MoE)的核心思想是“千军万马,只调精锐”。 传统稠密模型每次推理需激活全部参数,而MoE将模型拆分为数千个“专家”子网络,每次仅激活其中2~4个最相关的专家。 2.2双稀疏架构:DeepSeekV4的独门绝技DeepSeekV4在传统MoE基础上,创新性地提出“双稀疏”(Two-AxisSparsity):(1)专家稀疏(ExpertSparsity)动态路由 (2)注意力稀疏(AttentionSparsity)CSA(CompressedSparseAttention):结合局部窗口与全局采样,降低O(n²)复杂度;HCA(HierarchicalContextAttention

    31820编辑于 2026-05-16
  • 来自专栏大模型系列

    解密DeepSeek-V4 预览版Engram 记忆模块、mHC 稳定训练与百万Token稀疏注意力的三大突破——百万Token上下文的智能压缩引擎

    这与MoE(混合专家)实现的条件计算(ConditionalComputation)形成了完美的互补,共同构成了V4的“双稀疏”特性。 第五章:三大突破的协同效应——构建“双稀疏架构”Engram、mHC和DSA这三大技术并非孤立的创新,它们在DeepSeek-V4中形成了一个高度协同的系统。 mHC+MoE:mHC不仅稳定了主干网络,也优化了MoE专家之间的信息流,使得在万亿参数规模下,专家间的协作依然高效可靠。 整体架构:这三大技术共同支撑起了V4的“双稀疏架构”——Engram代表“记忆”稀疏(只检索相关知识),MoE代表“计算”稀疏(只激活相关专家),而DSA则是让这两者能在超长上下文中高效协同的 结论DeepSeek-V4的三大技术突破——Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力——共同构成了一场深刻的架构革命。

    54220编辑于 2026-04-29
领券