深入浅出:什么是 DeepSeek 稀疏注意力 (DSA)?本文旨在揭开 DeepSeek 稀疏注意力(DeepSeek Sparse Attention, DSA)机制的神秘面纱。 要理解 DSA 的巧妙之处,我们首先需要了解它要解决的难题。在大型语言模型中,一个核心机制叫做“注意力”(Attention),它帮助模型理解单词之间的关系。 而 DeepSeek 稀疏注意力(DSA)正是为了解决这个效率难题而设计的创新方案。2. 解决方案:DeepSeek 稀疏注意力 (DSA) 登场DeepSeek 稀疏注意力(DSA)是由 DeepSeek-AI 开发的一种创新的注意力机制,旨在解决长文本处理的效率问题。 DeepSeek 稀疏注意力(DSA)是一项关键的架构创新,它通过智能的两步筛选机制,有效解决了大型语言模型在处理长文档时面临的效率和成本瓶颈。
稀疏注意力 一、稀疏注意力的特点 DeepSpeed有很多不错的功能:Training Overview and Features - DeepSpeed 其中有一个功能是注意力稀疏,我们重点展开说明 需要注意的是:稀疏注意力的实现并不仅限于DeepSpeed。虽然DeepSpeed提供了一种高效的稀疏注意力实现,但其他深度学习框架和库也可能提供稀疏注意力的支持。 二、稀疏注意力的示意图 “稀疏注意力”是一种与传统注意力机制不同的技术,它只关注序列中的部分元素以提高处理速度。 蓝色的单元格在图中代表了被计算的元素,也就是被注意力机制关注的部分,体现了这种选择性关注。 稀疏性:稀疏性是稀疏注意力机制的另一个重要特点。 在处理稀疏注意力内核时,DeepSpeed采用了块稀疏计算。 在训练阶段,可以使用稀疏注意力来优化模型。稀疏注意力通过减少注意力机制中需要计算的元素数量来提高训练效率。
CNN中的注意力机制可以广泛地分为_通道注意力、空间注意力_和_混合域注意力_。这些方法提出了一些策略来包含特定计算的注意力,例如使用聚合、子采样、池化等技术,这反过来又使得提供密集注意力变得困难。 作者的主要贡献是一种高效的门控注意力机制DAS,它可以聚焦并增加对显著图像区域的注意力。 卷积块注意力模块(CBAM)和瓶颈注意力模块(BAM)将通道和空间注意力分开,并在最后一步将它们结合,以获得比SENet更好的性能。 针对CNN中的注意力机制,一项调查将其分为6个类别: 通道注意力 空间注意力 时间注意力 分支注意力 通道与空间注意力 空间与时间注意力 作者提出的注意力模块没有像上述方法那样分离注意力,而是同时考虑整个特征并采用非常简单的方法返回像素级注意力权重 与先前的变形注意力机制相比,DAS注意力机制主要应用于CNN。它采用了一个3x3内核,更适合CNN。 尽管[39]将变形注意力专门应用于查询特征,但DAS注意力机制则从整体上考虑图像特征。
第四章:双引擎协同——DSA稀疏注意力与1M上下文的实现拥有强大的“记忆”和“计算”引擎还不够,如何让它们在1MToken的超长上下文中高效协同工作,是另一大挑战。 标准的自注意力机制(O(n²)复杂度)在此场景下完全失效。DeepSeek-V4的答案是DSA(DeepSeekSparseAttention)及其核心组件LightningIndexer。 4.1DSA:压缩稀疏注意力(CSA)DSA的核心思想是先粗筛,再精算。 DSA预处理:整个1MToken(包括原始上下文和Engram注入的内容)被DSA的压缩机制处理,生成一个精简的“超级条目”列表。 算法效率:双引擎架构和DSA注意力机制,使得V4-Flash的实际计算量远低于其284B的总参数所暗示的水平。
此外,还从理论上证明了稀疏注意力机制保持了二次型全 Transformer 的表达能力和灵活性。 BigBird 模型中的稀疏注意力包括三个主要部分: 一组注意输入序列的所有部分的全局标记 所有标记注意一组相邻的局部标记 所有标记注意一组随机标记 BigBird 稀疏注意力模型由(注意输入序列的所有部分的 全局标记作为信息流的管道,证明了使用全局标记的稀疏注意力机制可以和全注意模型一样强大。 稀疏注意力模型的高效实现 大规模采用稀疏注意力的一个主要障碍,是稀疏操作在现代硬件中效率相当低。 相反,将稀疏的局部注意力和随机注意力转换成密集的张量运算,以充分利用现代单指令、多数据(single instruction, multiple data,SIMD)硬件。 稀疏注意力机制的高效实现示意图。
2025年2月,中国AI公司DeepSeek推出原生稀疏注意力机制(Native Sparse Attention, NSA),通过算法与硬件的协同创新,为长文本建模提供了高效解决方案。 原生可训练性 传统稀疏注意力机制多采用固定模式(如局部窗口或随机采样),而NSA通过动态路由机制,允许稀疏模式在训练过程中自适应调整。 这种设计使得模型能够根据任务需求自主优化注意力分布,避免人工预设模式的局限性。 例如,已有团队基于NSA改进低秩注意力机制(MLA),进一步压缩KV缓存至原有规模的5%。 3. 总结 DeepSeek原生稀疏注意力机制(NSA)不仅是技术层面的突破,更是AI发展理念的革新。它证明:在算力霸权横行的时代,以“大道至简”的算法设计为核心,依然能够实现性能与效率的双重飞跃。
而sparsemax是2016年提出的softmax的改进版,他可以得到稀疏的结果,即让一些值为0,它和softmax具有相似的性能,但具有选择性、更紧凑、注意力集中。 如下如所示,sparsemax相比如softmax是更硬的,在过大过小的地方对应1和0,即可以得到稀疏解。 注意力机制如下,其中 K=V=\hat{C} ,但是 Q=f(\hat{C}W^Q+b^Q) ,其中f为relu函数。 ,e_t,e_s\} 就是稀疏自注意力机制的得到的输出。前t个是item的embedding,字后一个es是目标embedding。 针对第一个问题,作者采用学习target embedding的方式,而不是直接采用会话中最后一个点击的商品 针对第二个问题,作者采用α-entmax的激活函数,主要是通过该方法产生稀疏解,从而避免给一些不感兴趣的商品加权
DeepSeek-MoE证明:稀疏激活是平衡性能与成本的关键路径。阶段三:多模态融合(2024–2025)——DeepSeek-VL目标:打破纯文本限制,实现图文协同理解。 稀疏注意力(DSA):采用闪电索引器(LightningIndexer)和Token选择器,在128K上下文中仅关注关键信息,推理效率提升5倍。 2.超长上下文处理:从ALiBi到YaRN再到DSA早期:使用ALiBi(AttentionwithLinearBiases),无需位置编码即可外推。 最新(V3.2):动态稀疏注意力(DSA)通过轻量级预测模块,提前筛选出Top-K关键Token。非关键Token被压缩或跳过,大幅降低计算量。 在100K上下文任务中,DSA使推理速度提升4.7倍,准确率仅下降0.8%。
上下文瓶颈(ContextBottleneck):长文本处理成本高昂→DSA稀疏注意力。 第四章:第三大突破——DSA稀疏注意力:百万Token上下文的智能压缩引擎4.1挑战:O(n²)复杂度的诅咒标准的自注意力机制(Self-Attention)的计算和内存复杂度均为O(L²),其中L是序列长度 4.2DSA的设计哲学:“先粗筛,再精算”DeepSeek-V4采用了其自研的压缩稀疏注意力(CompressedSparseAttention,CSA),这是DSA(DeepSeekSparseAttention 整体架构:这三大技术共同支撑起了V4的“双轴稀疏架构”——Engram代表“记忆”轴的稀疏(只检索相关知识),MoE代表“计算”轴的稀疏(只激活相关专家),而DSA则是让这两者能在超长上下文中高效协同的 结论DeepSeek-V4的三大技术突破——Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力——共同构成了一场深刻的架构革命。
本文将对这三大创新进行深入浅出的解析:DeepSeek稀疏注意力 (DSA): 一种创新的注意力机制,旨在大幅提升长文本处理的计算效率。 突破一:DeepSeek稀疏注意力 (DSA) —— 让模型看得更远、算得更快那么,DSA技术是如何解决长文本处理的效率难题的? 2.2 DSA的解决方案:智能筛选,重点关注为了解决上述瓶颈,DeepSeek-V3.2引入了DeepSeek稀疏注意力(DSA)。 通过对比采用DSA的DeepSeek-V3.2与采用传统注意力机制的旧版模型,我们可以直观地看到其成本优势。 我们来回顾一下:DeepSeek稀疏注意力 (DSA): 解决了长文本处理的计算效率问题,以更低的成本实现了更强大的长序列处理能力。
一、当前Transformer架构优化的主要方向 Transformer架构的优化主要集中在注意力机制的计算效率上,目前主流分为线性注意力(Linear Attention)和稀疏注意力(Sparse 稀疏注意力保留Softmax计算但通过动态选择重要Token减少计算量。 例如DeepSeek的DSA(Dynamic Sparse Attention)通过评分函数筛选Top-k个Token进行注意力计算。 动态稀疏注意力(DSA)的简化实现: class DynamicSparseAttention(nn.Module): def __init__(self, dim, heads=8, topk : 推荐方案:稀疏Attention(如BlockBERT) 实现方式: 滑动窗口局部注意力 全局+局部混合注意力 动态top-k选择机制 适用案例: 法律文书解析 代码生成 医学报告生成 生成式任务场景
从2017年Transformer架构的提出,到如今的稀疏注意力和混合专家模型,LLM架构经历了快速的演进。 稀疏注意力机制 4.1 稀疏注意力的基本思想 稀疏注意力机制通过限制注意力计算的范围,将标准注意力的 O(L2)O(L^2) 复杂度降低到 O(L⋅K)O(L \cdot K) 或 O(LlogL)O 核心思想: 局部注意力:只关注相邻的位置 固定模式注意力:使用预定义的稀疏模式 自适应稀疏注意力:根据内容动态确定关注的位置 结构化稀疏:利用特定结构(如块、带状等)进行稀疏化 4.2 代表性稀疏注意力模型 1 1] [0 0 1 1 1 1] [0 0 0 1 1 1] 4.3 稀疏注意力的数学推导 对于局部稀疏注意力,假设每个位置只关注 KK 个相邻位置,则计算复杂度为 O(L⋅K)O(L \cdot :保持稀疏矩阵结构 模式化剪枝:按照特定模式剪枝权重 动态稀疏训练:训练过程中逐步增加稀疏度 7.2.3 2025年剪枝最新技术 PagedAttention剪枝:保留注意力重要区域,剪枝次要区域 渐进式稀疏化
deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf这一次它最主要的是引入了一个新机制DeepSeek Sparse Attention(稀疏注意力 ,DSA),旨在在处理长上下文(long context)时提升训练与推理效率,同时尽可能保持输出质量不变。 稀疏注意力的思路在很多新一代 Transformer 变体中都在被探索:即不是所有 token 间都做全连接的 self-attention,而是选一些关键 token 或局部连接,从而减少计算复杂度。 得益于新模型使用了DSA的方法,它的服务成本的大幅降低,官方 API 价格也相应下调,新价格即刻生效。 (4)性能表现:尽管采用稀疏注意力,但整体能力与 V3.1-Terminus 基本持平,尤其在长上下文任务中展现出更优的性价比。
核心升级亮点: 1️⃣ 稀疏注意力(DSA)技术突破 • 全球首创细粒度稀疏注意力机制,长文本训练/推理效率飙升; • 效果与V3.1持平,但计算资源消耗大幅降低; 2️⃣ 全面开源!
⚙️ 二、核心技术突破:三大创新引擎驱动性能飞跃 1️⃣ DSA 稀疏注意力机制 —— 长文本不再“烧钱” 传统注意力复杂度:O(L²) → DSA 降至 O(L·k)(k ≪ L) DSA 双组件架构 Selection 动态选择 top-k 最相关 KV 对 每 query 仅保留 2048 个 token 成本实测(H800 集群,128K 上下文): 阶段 V3.1-Terminus V3.2 (DSA Dense Warm-up(1000 step):仅训练 Indexer 对齐主注意力 2. Sparse Finetune(15,000 step):引入稀疏,总 tokens:943.7B 2️⃣ RL 训练算力超预训练 10% —— 开源界首次“重后训” 论文原话: “开源模型 post-training
谷歌最近又推出了一个重磅的稀疏注意力模型:Big Bird。 之前各种刷榜的BERT和它的各种衍生版本RoBERTa等,都是构建在Transformer基础上。 谷歌团队解决这个问题的方法,是引入一种全新的稀疏注意力机制:Big Bird。 谷歌「大鸟」:稀疏注意力机制更省内存 Big Bird相对于传统的全注意力机制来说变的更稀疏,作为更长序列上的Transformer,Big Bird不仅能注意到更长的上下文信息,还将计算的二次依赖降低到了线性 实验:三种注意力机制结合效果最好 只采用随机注意力机制、局部注意力机制,或者两者融合起来,都没有三者合体的效果好。 有网友说,最近爆火的GPT-3也用了稀疏注意力机制,但是因为OpenAI的blocksparse太久没更新了,所以不知道二者有没有内在的相似性。
BiFormer中的查询感知稀疏注意力旨在让每个查询聚焦于top-k路由区域。然而,在计算注意力时,选定的键值对受到太多无关查询的影响,减弱了对更重要查询的注意力。 虽然在图像分类中使用稀疏自适应注意力(如DAT)取得了显著成果,但在针对语义分割任务进行微调时,由可变形点选择的键值对缺乏语义相关性。 BiFormer中的查询感知稀疏注意力旨在让每个查询聚焦于top-k路由区域。然而,在计算注意力时,选定的键值对受到太多无关查询的影响,减弱了对更重要查询的注意力。 为了提高查询的注意力效率,我们提出了可变形双级路由注意力(DBRA),这是一种用于视觉识别的注意力内注意力架构。在DBRA的过程中,第一个问题是如何定位可变形点。 因此,我们提出了一种注意力内注意力架构,该架构如上所述,向可变形点移动,作为查询的代理。
这一举措,配合其自研的双轴稀疏架构、DSA稀疏注意力以及对华为昇腾等国产芯片的深度适配,标志着大模型技术正式从少数巨头的“奢侈品”迈入普惠化、平民化的新纪元。 该架构包含三大核心技术支柱:Engram条件记忆、mHC流形约束超连接和DSA稀疏注意力。它们共同作用,实现了“记忆”与“计算”的分离,从根本上解决了传统模型的效率瓶颈。 2.3DSA稀疏注意力与LightningIndexer:百万上下文的“智能压缩引擎”2.3.1挑战:O(n²)的诅咒标准自注意力机制的计算和内存复杂度均为O(L²),其中L是序列长度。 2.3.2解决方案:压缩稀疏注意力(CSA)DeepSeek-V4采用了其自研的压缩稀疏注意力(CompressedSparseAttention,CSA),这是DSA(DeepSeekSparseAttention 算法效率:双轴稀疏架构和DSA注意力机制,使得V4-Flash的实际计算量和显存占用远低于其参数规模所暗示的水平。
作为迈向新一代架构的中间步骤,Deepseek V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证 据介绍,DeepSeek Sparse Attention(DSA)稀疏注意力机制首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。 为了严谨地评估引入稀疏注意力带来的影响,我们特意把 DeepSeek-V3.2-Exp 的训练设置与 V3.1-Terminus 进行了严格的对齐。
模型依托 DSA 稀疏注意力机制,并与异步强化学习深度结合,用更高效、更智能的方式解决了长时序、长上下文、高复杂度的智能体任务难题。 传统标准注意力的时间复杂度是 O(L²),当上下文长度 L 达到 200K 级别时,计算量会呈平方级爆炸,成本与耗时都难以承受。 事实上,在 GLM 系列的迭代中,即便使用 DSA 稀疏注意力机制,团队依然遇到了新的挑战——强化学习训练过程中的不稳定性。 DSA 稀疏注意力最初由 DeepSeek 团队提出,但如何在 RL 强化学习场景 下把 DSA 真正用好、用稳,是智谱团队通过大量工程实践、踩过无数坑后才摸索出的可行路径,包括更精细的上下文管理、训练稳定性优化等一系列关键技术 不再是单纯靠暴力堆参数、堆算力去“硬解”任务,而是走向一套极度精细的协同体系:异步架构、稀疏注意力、分层强化学习、高保真可验证环境、基座模型联合优化。