
DeepSeek-V3 背后的团队最近发布了一篇 14 页的技术论文,DeepSeek 首席执行官梁文峰是合著者,阐明了“AI 架构硬件的扩展挑战和反思”。他们最初技术报告的后续行动深入探讨了大型语言模型 (LLM) 开发、训练和底层硬件基础设施之间的复杂关系。本文超越了 DeepSeek-V3 的架构细节,探讨了硬件感知模型协同设计如何有效解决当前硬件的局限性,最终实现经济高效的大规模训练和推理。

LLM 的快速扩展暴露了当前硬件架构中的关键瓶颈,尤其是在内存容量、计算效率和互连带宽方面。DeepSeek-V3 在 2048 个 NVIDIA H800 GPU 集群上进行了训练,是一个引人注目的案例研究,展示了模型设计和硬件考虑之间的协同方法如何克服这些限制。本研究的重点是硬件架构和模型设计在实现经济的大规模训练和推理方面的相互作用,旨在为在不影响性能或可访问性的情况下有效扩展 LLM 提供可作的见解。
本文的主要关注领域包括:

DeepSeek-V3 融合了几项关键的架构创新,如本文的图 1 所示,包括 DeepSeekMoE 架构和多头潜在注意力 (MLA)。这些设计直接解决了扩展 LLM 的核心挑战:内存效率、成本效益和推理速度。
LLM 的内存需求呈指数级增长,超过了 HBM 等高速内存的缓慢增长速度。虽然多节点并行提供了一种解决方案,但从源头优化内存使用仍然至关重要。DeepSeek 通过多头潜在注意力 (MLA) 解决了这一瓶颈,它采用投影矩阵将所有注意力头的键值 (KV) 表示压缩成一个更小的潜在向量,并与模型联合训练。在推理过程中,只需要缓存这个压缩的潜在向量,与为每个头存储完整的 KV 缓存相比,这大大减少了内存消耗。
除了 MLA 之外,DeepSeek 还强调了其他有价值的减少 KV 缓存大小的技术,为内存高效注意力机制的未来发展提供了灵感:
本文中的表 1 比较了 DeepSeek-V3 、 Qwen-2.5 72B 和 LLaMA-3.1 405B 的每令牌 KV 缓存内存占用。DeepSeek-V3 实现了显著的缩减,每个令牌只需要 70 KB,明显低于 LLaMA-3.1 405B 的 516 KB 和 Qwen-2.5 72B 的 327 KB。

对于稀疏计算,DeepSeek 开发了 DeepSeekMoE,这是一种先进的专家混合 (MoE) 架构(图 1,右下角)。MoE 模型在成本效益方面具有两个关键优势:

DeepSeek 优先考虑系统级最大吞吐量和单次请求延迟,以提高推理速度。为了最大限度地提高吞吐量,该模型从一开始就采用了双微批处理重叠架构,有意将通信延迟与计算重叠。
此外,DeepSeek 将 MLA 和 MoE 的计算解耦为不同的阶段。当一个微批处理执行 MLA 或 MoE 计算的一部分时,另一个微批处理同时执行相应的调度通信。相反,在第二个微批处理的计算阶段,第一个微批处理执行 combine 通信步骤。这种流水线方法实现了全对全通信与连续计算的无缝重叠,从而确保 GPU 的充分利用。在生产环境中,DeepSeek 采用预填充和解码分离架构,将大批量预填充和延迟敏感的解码请求分配给不同规模的专家并行组,从而在实际服务条件下最大限度地提高系统吞吐量。
本文还谈到了测试时间缩放对推理模型的重要性,并强调了高令牌输出速度在强化学习工作流程中的关键作用,以及对于减少长推理序列中用户感知的延迟的关键作用。因此,通过软硬件协同创新优化推理速度对于推理模型的效率至关重要。
虽然 GPTQ 和 AWQ 等量化技术显著降低了主要用于推理的内存需求,但 DeepSeek 率先将 FP8 混合精度训练用于大规模 MoE 模型。尽管 NVIDIA 的 Transformer 引擎支持 FP8,但 DeepSeek-V3 作为第一个利用 FP8 进行训练的公开大型模型,标志着重要的一步。这一成就是基础设施和算法团队密切合作以及广泛实验的结果,在保持模型质量的同时显著降低了计算成本,使大规模训练更加可行。图 1 说明了训练期间用于向前和向后传递的 FP8 精度。
DeepSeek 还对 DeepSeek-V3 架构中的网络通信采用低精度压缩。在 EP 并行期间,使用细粒度的 FP8 量化对 Token 进行调度,与 BF16 相比,通信量减少了 50%,从而显著缩短了通信时间。
除了传统的浮点格式之外,DeepSeek 还试验了一种称为 LogFMT-nBit (对数浮点格式) 的新型数据类型。
DeepSeek 目前使用 NVIDIA H800 GPU SXM 架构(图 2),虽然该架构基于类似于 H100 的 Hopper 架构,但由于监管要求,FP64 计算性能和 NVLink 带宽(从 H100 的 900 GB/s 降低 400 GB / s )降低。节点内扩展带宽的显著减少给高性能工作负载带来了挑战。作为补偿,每个节点都配备了 8 个 400G Infiniband (IB) CX7 网络接口卡 (NIC),以增强节点间扩展能力。

为了克服 H800 架构的局限性,DeepSeek-V3 模型整合了并行化的硬件感知设计注意事项,包括:避免张量并行 (TP)、增强管道并行 (PP) 和加速专家并行 (EP)。这些策略的具体细节可以在原始论文中找到。
模型协同设计的一个关键方面是 MoE 架构中 TopK 专家选择策略的 “节点感知路由” 。鉴于节点内(NVLink,~160 GB/s 有效速率)和节点间(IB,每个 NIC ~40 GB/s)通信之间的带宽差异约为 4:1,DeepSeek 设计了路由以利用更高的节点内带宽。通过将 256 名路由专家(在 8 节点、64 个 GPU 设置中每个 GPU 4 名)分为 8 组,每组 32 名专家,每组驻留在单个节点上,并在算法上确保每个令牌最多路由到 4 个节点,DeepSeek 缓解了 IB 通信瓶颈,提高了训练期间的有效通信带宽。发往同一节点上的专家的代币可以通过 IB 发送一次,然后通过 NVLink 转发,从而减少冗余的 IB 流量。
虽然节点感知路由减少了带宽需求,但 NVLink 和 IB 之间的带宽差异使通信密集型内核的实现变得复杂。目前,GPU 流式多处理器 (SM) 通过 NVLink 处理网络消息处理和数据转发,消耗大量计算资源。DeepSeek 主张将节点内(纵向扩展)和节点间(横向扩展)通信集成到一个统一的框架中。
集成专用协处理器以进行网络流量管理以及 NVLink 和 IB 域之间的无缝转发,可以降低软件复杂性并最大限度地提高带宽利用率。对动态流量重复数据删除的硬件支持可以进一步优化 DeepSeek-V3 的节点感知路由等策略。DeepSeek 还探索了新兴的互连协议,如超级以太网联盟 (UEC) 和超级加速器链路 (UALink),并指出统一总线 (UB) 是融合纵向扩展和横向扩展的最新方法。本文详细介绍了在编程框架级别实现这种融合的方法,包括统一网络适配器、专用通信协处理器、灵活的转发和广播/归约机制以及硬件同步原语。
当前硬件的另一个限制是在 NVLink 和 PCIe 上的不同流量类型之间动态分配带宽时缺乏灵活性。例如,在推理过程中将 KV 缓存数据从 CPU 内存传输到 GPU 可能会使 PCIe 带宽饱和,从而导致通过 IB 与 GPU 间 EP 通信争用,从而可能降低整体性能并导致延迟峰值。DeepSeek 建议的解决方案包括动态 NVLink/PCIe 流量优先级、I/O 小芯片集成以及纵向扩展域内的 CPU-GPU 互连。
对于 DeepSeek-V3 训练,部署了多平面脂肪树 (MPFT) 横向扩展网络(图 3 )。每个节点配备 8 个 GPU 和 8 个 IB NIC,将每个 GPU-NIC 对分配给不同的网络平面。此外,每个节点都有一个 400 Gbps 以太网 RoCE NIC,该 NIC 连接到单独的存储网络平面,用于访问 3FS 分布式文件系统。横向扩展网络采用 64 端口 400G IB 交换机,理论上支持多达 16384 个 GPU,同时保留了两层网络的成本和延迟优势。但是,由于政策和法规的限制,实际部署涉及 2000 多个 GPU。

由于 IB ConnectX-7 的当前限制,部署的 MPFT 网络并未完全实现其预期的架构。理想情况下(图 4),每个 NIC 都有多个物理端口,每个端口都连接到一个单独的网络平面,但通过端口绑定作为单个逻辑接口呈现给用户。这将允许单个队列对 (QP) 在所有可用端口上无缝发送和接收消息,类似于数据包喷洒。NIC 中的本机无序布局支持对于确保消息一致性和正确的排序语义是必要的,因为来自同一 QP 的数据包可能会遍历不同的网络路径并无序到达。InfiniBand ConnectX-8 原生支持四个平面,未来完全支持高级多平面功能的 NIC 将显著有利于大型 AI 集群的两层胖树网络的可扩展性。总体而言,多平面架构在大型系统的故障隔离、稳健性、负载平衡和可扩展性方面具有显著优势。

DeepSeek 强调了 MPFT 的几个优势,包括它作为多轨脂肪树 (MRFT) 的子集,允许无缝集成现有的 NVIDIA 和 NCCL 优化,以实现 MRFT 网络、成本效益、流量隔离、减少延迟和稳健性。比较 MPFT 和 MRFT 的性能分析(图 5 和 6,表 4)表明,多平面网络的多对多性能与单平面多轨网络非常相似,并且在 2048 个 GPU 上训练 V3 模型时,MPFT 和 MRFT 的性能几乎相同。



在 DeepSeek 的模型推理中,大规模 EP 严重依赖 all-to-all 通信,这对带宽和延迟都很敏感。即使是微秒级的固有网络延迟也会显著影响系统性能。
DeepSeek 分析了 IB 和 RoCE 的延迟特征(表 5),指出 IB 的延迟始终较低,因此更适合分布式训练和推理等延迟敏感型工作负载。虽然 RoCE 提供了一种可能具有成本效益的替代方案,但其当前的延迟和可扩展性限制使其无法完全满足大规模 AI 系统的需求。DeepSeek 为 RoCE 提出了具体的改进,包括专用的低延迟 RoCE 交换机、优化的路由策略以及增强的流量隔离或拥塞控制机制。

为了进一步降低网络通信延迟,DeepSeek 利用了 InfiniBand GPUDirect Async (IBGDA)。传统上,网络通信涉及 CPU 代理线程,这会带来额外的开销。IBGDA 允许 GPU 直接填充工作请求 (WR) 内容并写入 RDMA 门铃 MMIO 地址,从而消除与 GPU-CPU 通信相关的显著延迟。通过在 GPU 内管理整个控制平面, IBGDA 避免了 CPU 瓶颈,尤其是在发送大量小数据包时,因为 GPU 的并行线程可以分配工作负载。DeepSeek 的 DeepEP 和其他工作已经证明,使用 IBGDA 可以显著提高性能,这使得 DeepSeek 倡导在各种加速器设备上广泛支持此类功能。
基于已确定的硬件限制和特定应用环境中提出的解决方案,本文扩大了讨论范围,为未来的硬件架构设计提供了前瞻性的方向:
本白皮书深入探讨了这些领域中的每一个,提供了具体的见解和建议,强调了硬件和软件之间需要一种整体协同设计方法,以实现大规模 AI 的持续进步和可访问性。
总之,本技术报告对 DeepSeek-V3 开发和训练过程中遇到的挑战和解决方案提供了宝贵的见解。通过仔细分析模型架构和硬件限制之间的相互作用,DeepSeek 为 AI 基础设施的未来提供了一个令人信服的愿景,强调了硬件感知协同设计在实现经济高效且可扩展的大型语言模型方面的关键作用。该论文详细探讨了 MLA、DeepSeekMoE、FP8 训练、LogFMT 和 MPFT 网络等技术,并提出了对硬件开发的前瞻性建议,为大规模 AI 研究和工程领域做出了重大贡献。
论文原件查询:DeepSeek-V3
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。