搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器之心
DeepSeek的MLA，任意大模型都能轻松迁移了
., MHA, GQA, MQA），推理成本相比 MLA 呈现显著劣势。使预训练的任意 LLMs 快速迁移至 MLA 架构而无需从头预训练，这既有重大意义又具有挑战性。）两个关键步骤，成功将任意 MHA/GQA 架构迁移到 MLA。 MHA 与 MLA 在多处存在差异，使得 MHA2MLA 极具挑战：位置编码不同：MHA 采用全维度位置编码（PE），MLA 仅少量维度采用 PE，剩余维度则 PE 无关缓存对象不同：MHA 缓存分离的键向量及值向量，MLA 则能通过矩阵吸收等优化实现更高的访存效率本文提出的 MHA2MLA 为了最大化利用 MHA 预训练参数矩阵并对齐 MLA 的缓存对象和运算形式，首先通过部分 RoPE 保留（Partial-RoPE 3）MHA2MLA 的微调数据量仅需预训练数据的 0.3%~0.6%，避免了从头预训练 MLA 模型的高昂成本。
50610编辑于 2025-03-07
【多模态大模型面经】 DeepSeek专题： DeepSeekMOE + MLA
，但每个 token 只激活其中一小部分参数；MLA 用来极限压缩 Attention 的 KV Cache，显著降低长上下文推理的显存与带宽成本。 ③ 2024 年底及之后：V2.5 / V3 / R1 等迭代，在同一条 MoE + MLA 技术路线上继续加码，扩大总参数量、增强代码/推理能力；看完DeepSeek模型的时间线后，是不是发现，实际上 DeepSeek的主要内容就是一个DeepSeekMoE + MLA。 DeepSeekMoE：把 FFN 层变成稀疏激活的 MoE ;MLA（Multi-head Latent Attention）：把 KV cache 压到一个低秩 latent 空间里，极限节省显存，这套机制就是 Multi-head Latent Attention（MLA）。
81720编辑于 2025-11-21
DeepSeek技术架构解析：MLA多头潜在注意力
MLA主要通过优化KV-cache来减少显存占用，从而提升推理性能。我们知道这个结论之前，老周带大家一起梳理一下从MHA、MQA、GQA到MLA的演变历程，并着重介绍一下MLA的设计思路。 2.5.2.2 兼容RoPE的混合设计为解决RoPE（旋转位置编码）与MLA的冲突，MLA采用分维度混合编码：低秩维度（）：不加RoPE，用于保留恒等变换能力。可以对比上面那张图MLA的缓存量，MLA确实可以减少K-V Cache，但是会影响模型效果吗？我们来看下K-V Cache的推理过程：上面对应标准的MHA，下面对应的是MLA。我们来说下MLA，通过矩阵进行压缩，然后生成压缩的K、V的隐特征，将存储在K-V Cache。最后，我们来回顾下MLA论文里的架构图。
61310编辑于 2025-11-20
来自专栏GiantPandaCV
大模型KV Cache节省神器MLA学习笔记（包含推理时的矩阵吸收分析）
首先，本文回顾了MHA的计算方式以及KV Cache的原理，然后深入到了DeepSeek V2的MLA的原理介绍，同时对MLA节省的KV Cache比例做了详细的计算解读。前言这篇文章主要是对Deepseek2提出的优化KV Cache的MLA方法做个人理解，特别是关于MLA的矩阵吸收部分，这部分Paper以及官方开源实现没有给出。为了改进KV Cache，演化了一系列AI Infra的工作，比如Paged Attention, GQA, MLA包括最新的GQA，MLA之外的另一种KV Cache压缩方式：动态内存压缩（DMC）， DeepSeek2 MLA 原理介绍上面的图是Deepseek2 paper中对集中常见KV Cache压缩方法的对比，可以看到MLA的核心是对keys和values进行低秩联合压缩来减少KV Cache 首先，本文回顾了MHA的计算方式以及KV Cache的原理，然后深入到了DeepSeek V2的MLA的原理介绍，同时对MLA节省的KV Cache比例做了详细的计算解读。
3.7K21编辑于 2024-06-18
来自专栏技术专栏全家桶
深度学习之MHA|MQA|GQA|MLA注意力机制对比分析
MLA被视为GQA的进阶版本，实现了“训练时增强能力，推理时压缩显存”的优化目标。与传统MHA相比，MLA不直接存储完整的键值矩阵，而是存储一个维度更小的压缩向量。 GQA使用固定的选择矩阵，而MLA学习一个上投影矩阵，这使得MLA能够实现更灵活的压缩，从而可能带来更好的性能。有趣的是，研究表明GQA总是可以由MLA表示，但反之不成立，这进一步证明了MLA的灵活性和表达能力。 MLA在DeepSeek模型系列中的应用和演进如下：模型 MLA引入关键MLA特性/改进报告的MLA优势 DeepSeek-V2 首次引入低秩KV联合压缩，解耦RoPE 减少KV缓存(14-4% DeepSeek开源模型和推理框架对MLA的支持，为该技术的进一步研究和应用奠定了坚实基础。尽管MLA已显示出巨大潜力，但其在整个行业内的广泛采用仍有待发展。
29010编辑于 2026-03-05
来自专栏VRPinea
MLA推出肉类等级评判AR应用，妈妈再也不用担心我白目了
但好在，肉类和家畜肉类协会（MLA）与Design Build and Consulting业务部门Wiley合作，推出了一款可应用于肉类分级的AR应用ARGA。目前，MLA与Wiley已利用Vuzix m300和各种手持AR设备，演示过该应用了。 ? 或许你会疑惑，天天与猪肉打交道的员工为何不能准确辨别肉类等级？对此，Wiley的研发与创新总监Brett Wiskar表示：“我们非常高兴与MLA开展合作，共同研究这个具有创新性的项目，把红肉行业推向数字时代。”
53100发布于 2018-07-30
来自专栏GiantPandaCV
GQA，MLA之外的另一种KV Cache压缩方式：动态内存压缩（DMC）
第二，这种方法不能from scratch训练，这样就更阻碍了这种方法的广泛应用，毕竟MLA的成功一个重要原因就是因为Deepseek2直接用这个架构from scratch训出来的model并开源。 Paper的附录里面还提到一个limit，DMC这种方法针对已经训练好的model通过continue train来应用DMC，如果from scratch训练模型会崩，所以这个应该是相比于MLA的劣势
69310编辑于 2024-06-18
来自专栏文武兼修ing——机器学习与IC设计
流水线乘加树需求设计规划代码实现
output 1 输出信号有效，高有效 mla_dout output DIN_WIDTH * 2 + DIN_NUM_LOG - 1 输出结果功能描述功能 $mla_dout = \sum_{ i = 0}{2{DIN_NUM_LOG}} mla_din1[i] \times mla_din2[i] $ 其中，mla_din1[i]和mla_din2[i]按位宽存储在输入mla_din1和mla_din2 [1].layer_dout_valid; assign mla_dout = mla_layer[1].layer_dout[0]; endmodule // mla_tree Testbench ) * DIN_WIDTH - 1:0]mla_din2; logic dout_valid; logic [DIN_WIDTH * 2 + DIN_NUM_LOG - 2:0]mla_dout; mla_tree (mla_din1), .mla_din2 (mla_din2), .dout_valid(dout_valid), .mla_dout (mla_dout) ); 时钟与复位信号
955110发布于 2018-04-27
《长文本处理新曙光：深入剖析多头隐式注意力机制显存优化奥秘》
MLA：长文本处理的显存优化利器MLA是一种旨在解决传统多头注意力机制显存占用问题的创新技术。 MLA的工程实践与挑战应对在工程实践中，MLA的优势得到了充分体现。在分布式推理场景中，结合流水线并行（PP）和专家并行（EP）技术，MLA实现了计算与通信的高度重叠，将长序列处理的吞吐量提升了3倍以上，大大提高了系统的整体性能。但MLA在工程实现中也面临一些挑战。随着技术的不断发展，MLA有望在更多领域得到应用和拓展。在医疗领域，处理海量的病历文本和医学文献时，MLA能够帮助模型更高效地提取关键信息，辅助医生进行诊断和研究；在金融领域，分析大量的金融报告和市场数据时，MLA可以快速准确地捕捉市场趋势和风险信号。
35110编辑于 2025-03-07
来自专栏架构师之路
通俗讲解DeepSeek开源：FlashMLA，究竟是个啥？（第一弹）
deepseek开源Flash-MLA，业内纷纷表示：“这是加速AGI进程的里程碑技术”“deepseek才是真正的open AI”今天简单聊聊：1. 吃瓜：FLASH-MLA是干嘛的？2. 技术：MLA是个啥？3. 普通人有什么用：对写提示词有什么启示？【1】Flash-MLA是干嘛的？GPU高速解码器，可以理解为这是为高性能显卡定制的“AI加速工具”。加速到什么程度？1. bad case：请系统性介绍MLA。better case，请系统性介绍MLA：1. 介绍MLA概念，用通俗的语言表达；2. 介绍MHA与MLA的关联与异同；3. 举几个MLA例子说明；4. bad case：请分析这篇关于MLA的文章：#正文#...并进行总结。better case，请分析这篇关于MLA的文章：#正文第一部分# …#正文第二部分# …#正文第三部分# …并进行总结。原理：MLA擅长处理局部信息，分段输入可减少跨段冗余计算，提高效率。稍作总结1. Flash-MLA是显卡加速工具，它的开源使得计算更快更便宜，实现了技术普惠；2.
1.7K20编辑于 2025-03-20
来自专栏专知
【MLA首日报告摘要】周志华、马毅等教授分享机器学习最新进展
【导读】第15届中国机器学习及其应用研讨会今天11月4日在北京交通大学举行，海内外从事机器学习及相关领域研究的10余位专家与会进行学术交流，包括特邀报告、顶会论文交流、以及Top Conference Review等部分。让我们简洁看下。 1. 深度森林初探这是由机器学习西瓜书作者、南京大学周志华老师讲述的关于他最新集成学习研究成果-深度森林，一种对深度神经网络可替代性方法。图示：级联森林结构的图示。级联的每个级别包括两个随机森林（蓝色字体标出）和两个完全随机树木森林（黑色）。假设
1.3K50发布于 2018-04-09
来自专栏AI研思录
白话科普 | DeepSeek开源周首日王炸！FlashMLA核弹级发布，技术原理详细解析
MLA技术的革命性在于，它不再直接存储原始键值向量，而是构建了一个动态特征蒸馏系统。首先简单介绍一下 MLA 这个算法的背景，它最早是 DeepSeek-V2 中提出来的，然后在 V3 中继续沿用了。 MLA（多头潜在注意力）机制是 FlashMLA 的灵魂所在。 python tests/test_flash_mla.py 使用方法：下面是一段使用的示例代码。 from flash_mla import get_mla_metadata, flash_mla_with_kvcache tile_scheduler_metadata, num_splits = DeepSeek 已在实验分支实现 MLA 与专家路由的联合优化，当专家选择概率与注意力头激活模式形成共振时，系统吞吐量呈现指数级增长。
71810编辑于 2025-02-26
来自专栏AgenticAI
速看！DeepSeek开源周第一弹：FlashMLA加速GPU计算！
DeepSeek开源周第一天，发布加速推理的基础设置FlashMLA，DeepSeek为 Hopper GPU 优化高效 MLA 解码内核，支持变长序列，并已投入生产使用。 clone https://github.com/deepseek-ai/FlashMLA.git 安装 python setup.py install 测试 python tests/test_flash_mla.py 使用 from flash_mla import get_mla_metadata, flash_mla_with_kvcache tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv) for i in range(num_layers): ... o_i, lse_i = flash_mla_with_kvcache( q_i, kvcache_i, block_table, cache_seqlens, dv,
19400编辑于 2025-03-18
来自专栏算法一只狗
DeepSeek 开源的FlashMLA到底是什么？
这次开源的技术，其实本质上就是在推理过程中优化了MLA。它其实总结下来就是两个关键的信息适配DeepSeek中自研的MLA，能够有效加速MLA的推理速度。其实MLA技术一开始就是DeepSeek-V2中训练的一种方法。而DeepSeek-V2提出的MLA（Multi-Head Latent Attention），在KV缓存数量上略大于GQA（2.25组），但具备恢复完整MHA效果的能力。
29910编辑于 2025-03-18
来自专栏自然语言处理
一文深入了解DeepSeek-R1：模型架构
DeepSeek-R1 的第 4 层至第 61 层这些层由 MLA 层和 MoE 层组成。我们将在接下来的部分中了解什么是 MLA 层和 MoE 层以及它们如何工作。 MoE Transformer 层 5.多头潜在注意力（MLA）现在让我们了解什么是 MLA。 MLA 首次在 DeepSeek-V2 中引入，并已延续到 DeepSeek-V3 和 DeepSeek-R1。为什么要开发MLA？ MLA 与 MHA、GQA 和 MQA 的比较：来自 DeepSeek-V2 的图表 MLA 如何实现减少 KV 缓存以加快推理速度？然而，在具有多头潜在注意力 (MLA) 的 Transformer 层中，权重矩阵生成的 Q、K 和 V 的尺寸明显小于输入。MLA 不会保留完整的隐藏维度，而是会减小它们的尺寸。
4.7K21编辑于 2025-02-14
来自专栏GiantPandaCV
如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2？
本文主要讨论训练/推理成本与全新 MLA 和 MoE 架构对于分布式训练带来的挑战。疯狂的卷数据（其余开源大模型基本上也是复现 LLaMa + 更好的数据）、 Mistral 简单的 8 expert top-2 不同的是， DeepSeekV2 在模型架构上有非常具备影响力的创新：MLA 和 GQA 的对比根据技术报告中的 Table 1 我们可以知道：MLA 在推理成本上等效于 GQA 的我们统一假设对于 KVCache 而言，对于 Weight 而言，seq len 默认取 DeepSeekV2 推理加速的示例我这里就从训练 infra 角度也聊聊 MLA + shared expert。不一样，原本 MHA 逻辑里只有两层 Linear （QKV 和 B），但 MLA 是压缩了 KV，在解压缩的过程中就需要多一层 Linear 计算： MLA 解压缩 latent kv 的逻辑三层的
81920编辑于 2025-02-03
来自专栏【腾讯云开发者】
DeepSeek-V3.2加速技术详解，效果惊人的秘密？
1.2 MLA：Multi-Head Lantent Attention 这个技术也是V2时就用上了，V3报告里面又说了一回，简单来说就是把Multi-Head Attention（MHA）中的Q、K、，这里MLA从标准的MHA（Multi-Head Attention）替换为了MQA（Multi-Query Attention） 3.1 MHA版MLA VS MQA版MLA 先来看一张V3时提出 MLA的老图，因为MQA所有的Attention共享一组Key和Value，所以之前DeepSeek被诟病会丢掉很多Key和Value的信息。但实际上MLA的压缩也是全Attention共享一组，不过计算时候要还原出全部的Key和Value，当时也讲了，是用GPU的计算量来换RAM显存的I/O时间，因为计算比I/O快很多。这次V3.2终于也对KV动刀了，所以这里不再是靠压缩和解压版的全MHA，而是成为MQA了版本的MLA。
1K10编辑于 2025-10-14
来自专栏天意云&天意科研云&天意生信云
100条经典ChatGPT论文指令（下）
建议我如何使用Microsoft Word将标题页格式化为 MLA 格式。 "使用Microsoft Word设置MLA格式标题页的指导" 89. 列出任何可以帮助我创建 MLA 格式标题页的标题页生成器。 "MLA格式标题页生成器列表：有效工具推荐" 91. 解释为 APA 格式的专业论文创建标题页的所有指南。分析以下参考文献是否遵循 MLA 风格指南 - [插入参考文献]。 "MLA风格参考文献审核：检查[插入参考文献]的格式规范性" 95. 给出 MLA 格式的示例参考页模板的示例。 "MLA格式参考页模板：结构和内容示例" 98. 举例说明如何引用 APA 格式的 Ted Talk 。告诉我如何为带有示例的 MLA 格式论文创建参考页。 "MLA格式参考页创建：附带示例的详细指导"
46910编辑于 2025-03-06
来自专栏计算机视觉战队
阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增
虽然业界已有 MQA、GQA、MLA 等多种注意力机制变体试图解决这一问题，但这些方案要么难以在严格的显存限制下保持理想性能，要么在模型结构上引入额外复杂度，带来巨大的工程挑战和生态兼容性问题。链接：https://arxiv.org/abs/2412.19255 实验中，MFA 和 MFA-KR 不仅超越了 MLA 的性能，还在减少了高达 93.7% 的 KV Cache 使用量的情况下，与传统的研究团队在分析现有解决方案时，重点考察了两个代表性的改进方案：多查询注意力（MQA）和多头潜在注意力（MLA）。对于 MQA，研究人员发现它采用了一种更激进的参数共享策略。而对于更新的 MLA 方案，研究人员发现它采用了更为复杂的架构设计。MLA 引入了一个共享的潜在空间，通过在这个空间中进行参数压缩来节省内存。通过这个框架进行分析，可以发现与 MQA 相比，MFA 同时实现了更高的 SLSD 和更高的 TER；与 MLA 相比，在相似的参数预算下，MFA 不仅达到了更小的 KV cache 尺寸，还实现了更高的
37900编辑于 2025-01-20
来自专栏大模型成长之路
【大模型学习 | DeepSeek-V3原理】
该模型仍然沿用了 V2 模型中的 Multi-head Latent Attention (MLA) 和 DeepSeekMoE,在这框架的基础上，提出了auxiliary-loss-free strategy 图图图图片 Framework 1️⃣ Multi-Head Latent Attention (MLA) MLA是为了压缩在推理阶段K，V的缓存的低秩联合压缩这就有一个问题了，为什么需要压缩KV内存呢因为模型可以一次性计算出所有KV，但是在推理阶段，token是生成输出的，当计算到第t个token时，模型需要计算当前输入Q和之前生成的所有token的Key的注意力分数，因此需要记录下每一个过程的K,V.而MLA MLA相较于MHA来说，计算当前 token t 和历史 token j 的注意力时，用缓存的超小 c_KV_j 和矩阵 W_UK, W_UV 重建出该历史 token 的内容键k_C_j,i 和值
1.3K21编辑于 2025-07-25

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

DeepSeek的MLA，任意大模型都能轻松迁移了

【多模态大模型面经】 DeepSeek专题： DeepSeekMOE + MLA

DeepSeek技术架构解析：MLA多头潜在注意力

大模型KV Cache节省神器MLA学习笔记（包含推理时的矩阵吸收分析）

深度学习之MHA|MQA|GQA|MLA注意力机制对比分析

MLA推出肉类等级评判AR应用，妈妈再也不用担心我白目了

GQA，MLA之外的另一种KV Cache压缩方式：动态内存压缩（DMC）

流水线乘加树需求设计规划代码实现

《长文本处理新曙光：深入剖析多头隐式注意力机制显存优化奥秘》

通俗讲解DeepSeek开源：FlashMLA，究竟是个啥？（第一弹）

【MLA首日报告摘要】周志华、马毅等教授分享机器学习最新进展

白话科普 | DeepSeek开源周首日王炸！FlashMLA核弹级发布，技术原理详细解析

速看！DeepSeek开源周第一弹：FlashMLA加速GPU计算！

DeepSeek 开源的FlashMLA到底是什么？

一文深入了解DeepSeek-R1：模型架构

如何看待 DeepSeek 发布的 MoE 大模型 DeepSeek-V2？

DeepSeek-V3.2加速技术详解，效果惊人的秘密？

100条经典ChatGPT论文指令（下）

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

【大模型学习 | DeepSeek-V3原理】

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐