这篇笔记整理下Nvidia公司的NVLink技术的发展历程,供大家参考。 (图片来自https://en.wikichip.org/wiki/nvidia/nvlink) 2014年,NVLink 1.0发布,并应用在P100芯片上,如下图所示。 两颗GPU V100之间含6条NVLink, 每个link中包含8个lane, 每条lane的速率提升到25Gb/s, 整个系统的双向带宽变为300GB/s,带宽是NVLink 1.0的近2倍。 NVLink含有4条lane, 单条lane的速率为50Gb/s, 因此整个系统的双向带宽提升到600GB/s,总带宽相比NVLink 2.0提升了1倍。 而PCIe每一代的参数如下表所示, 从单条lane的速率来看,NVLink整体比同一时期的PCIe的指标高1倍左右,而总带宽的优势更是明显,NVLink是PCIe总带宽的5倍左右。
二、NVLink技术概述 NVLink是英伟达开发的一种高速连接协议,它通过采用一种独特的连接方式,实现了芯片之间的高效通信。与传统的连接方式相比,NVLink具有更高的数据传输速度和更低的延迟。 三、NVLink的工作原理 NVLink的工作原理主要基于一种名为“多链路聚合”的技术。这种技术允许多个通道同时进行数据传输,从而大大提高了数据传输速度。 技术架构 NVLINK 的架构包括 NVLINK 桥接器和 NVLINK 交换机。 NVLINK 桥接器是用于 GPU 与其他设备(如 CPU、内存或其他 GPU)之间通信的组件。 它提供了一组 NVLINK 接口,可以将 GPU 连接到其他设备上。而 NVLINK 交换机是用于 GPU 之间通信的组件。它提供了一组 NVLINK 连接端口,可以将多个 GPU 相互连接起来。 NVLINK 交换机可以位于 GPU 芯片内部或外部,从而形成 NVLINK 通信网络。 四、NVLink的优势 高速度:NVLink具有极高的数据传输速度,能够满足大规模数据处理的需求。
初代 NVLink 结构第一代 NVLink 技术采用了一种精巧的设计,每条 NVLink 是由一对双工双路信道组成,通过巧妙地将 32 条配线组合起来,形成了 8 对不同的配对。 NVLink 实现细节下面我们来解析下 NVLink 连接的技术细节:首先,英伟达的 P100 GPU 在其设计中融入了四条 NVLink 通道,这一创新不仅提升了数据传输的速度,还极大地增强了系统的整体性能 NVLink 通信协议我们再深入 NVLink 协议的细节中进行分析。在 NVLink 的链接架构中,一个关键的概念是“Brick”,它指的是 NVLink 通道的基本单元。 NVLink 互联拓扑为了实现 GPU 间的高效链接和协作计算,就需要基于 NVLink 系统配置和性能成本要求,来合理的配置 GPU 之间的 NVLink 通道的物理布局和连接方式。 另一个有趣的方面是,每个 GPU 的 NVLink 数量没有改变,GH100 Hopper 的 NVLink 容量为 18 个链接,Blackwell GPU 的 NVLink 容量也是 18 个链接。
本篇文章我们就来谈谈NVIDIA提出的NVLink总线协议,看看它到底是何方神圣。 2. NVlink介绍 2.1 发布 NVLink技术是在2014年3月的NVIDIA GTC 2014上发布的。 首先我们简单看下NVIDIA对NVLink的介绍:NVLink能在多GPU之间和GPU与CPU之间实现非凡的连接带宽。带宽有多大? 但是NVLink背后的布局远不只是如此。 2.3 结构和拓扑 2.3.1 NVLink信号与协议 NVLink控制器由3层组成,即物理层(PHY)、数据链路层(DL)以及交易层(TL)。 下图展示了P100 NVLink 1.0的各层和链路: P100搭载的NVLink 1.0,每个P100有4个NVLink通道,每个拥有40GB/s的双向带宽,每个P100可以最大达到160GB/s带宽
初代 NVLink 结构第一代 NVLink 技术采用了一种精巧的设计,每条 NVLink 是由一对双工双路信道组成,通过巧妙地将 32 条配线组合起来,形成了 8 对不同的配对。 NVLink 实现细节下面我们来解析下 NVLink 连接的技术细节:首先,英伟达的 P100 GPU 在其设计中融入了四条 NVLink 通道,这一创新不仅提升了数据传输的速度,还极大地增强了系统的整体性能 NVLink 通信协议我们再深入 NVLink 协议的细节中进行分析。在 NVLink 的链接架构中,一个关键的概念是“Brick”,它指的是 NVLink 通道的基本单元。 NVLink 互联拓扑为了实现 GPU 间的高效链接和协作计算,就需要基于 NVLink 系统配置和性能成本要求,来合理的配置 GPU 之间的 NVLink 通道的物理布局和连接方式。 另一个有趣的方面是,每个 GPU 的 NVLink 数量没有改变,GH100 Hopper 的 NVLink 容量为 18 个链接,Blackwell GPU 的 NVLink 容量也是 18 个链接。
NVLink NVLink数据包 单个 NVLink 数据包的范围从 1 到 18 个 flit。 链接 NVLink 通道称为 Brick(或NVLink Brick)。单个 NVLink 是双向接口,每个方向包含 8 个差分对,总共 32 条线。 使用记录 查看NVLink状态:NVIDIA-SMI系列命令详解(16)-NVLINK本文为NVIDIA-SMI系列命令详解第十六篇-NVLINK,介绍 - 掘金 (juejin.cn) 安装NVLink NVLink,通信就都会改成NVLink的方式,导致正常的卡间不能通信了)。 八卡互联方案 如果使用NVLink,每张卡都要和其他卡之间有NVLink相连,传输速度取决于单条NVLink速度上限。
Nvidia给人感觉一直是diaodiao的,GenZ、CXL、人家一个也没看上,也不跟风,而是自己搞了一套NVLINK,而且反扑了IBM,IBM大佬竟然在Power CPU里继承了NVLINK控制器, NVLINK可以支持CPU-GPU间链路也可以支持GPU-GPU间链路,而且NV diao上加diao,连NVLINK Switch都自己搞出来了,而且还搞出了搭载16个GPU+NVLINK Switch 现在的时间线是:CAPI->GenZ->NVLINK->CXL。这还没完,ARM平台不掺和进来这出戏就不够精彩。 完整的时间线应该是这样的:CAPI->GenZ->CCIX->NVLINK->CXL。 那么,这几员大将,到底谁能在这场架构变革中胜出? 至于NVLINK,既然NV要diao到底,那谁也拦不住,毕竟GPU集群使用的越来越多,GPU和GPU之间怎么勾搭那是人家自己的事情。
AMD、博通、思科、谷歌、HPE、英特尔、Meta 和微软组建超加速器链路 (UALink) 推广者小组,以对抗 NVIDIA NVLink 。 HPE, Intel, Meta and Microsoft Form Ultra Accelerator Link (UALink) Promoter Group to Combat NVIDIA NVLink
当谈及分布式通信和 NVLink 时,我们进入了一个引人入胜且不断演进的技术领域,本节我们将简单介绍分布式通信的原理和实现高效分布式通信背后的技术 NVLink 的演进。 NVLink:NVLink 是一种由英伟达开发的高速互连技术,可实现 GPU 之间的直接通信。NVLink 可以提供比 PCIe 更高的带宽和更低的延迟,适用于要求更高通信性能的任务。 NVSwitch 是一种高速互连技术,同时作为一块独立的 NVLink 芯片,其提供了高达 18 路 NVLink 的接口,可以在多个 GPU 之间实现高速数据传输。 NVLink 发展如上图所示,从 Pascal 架构到 Hoppe 架构,NVLink 已经经过了四代的发展演进。 每一层 NVLink 的更新,其每个 GPU 的互联带宽都是在不断的提升,其中 NVLink 之间能够互联的 GPU 数,也从第一代的 4 路到第四代的 18 路。
当谈及分布式通信和 NVLink 时,我们进入了一个引人入胜且不断演进的技术领域,本节我们将简单介绍分布式通信的原理和实现高效分布式通信背后的技术 NVLink 的演进。 NVLink:NVLink 是一种由英伟达开发的高速互连技术,可实现 GPU 之间的直接通信。NVLink 可以提供比 PCIe 更高的带宽和更低的延迟,适用于要求更高通信性能的任务。 NVSwitch 是一种高速互连技术,同时作为一块独立的 NVLink 芯片,其提供了高达 18 路 NVLink 的接口,可以在多个 GPU 之间实现高速数据传输。 NVLink 发展如上图所示,从 Pascal 架构到 Hoppe 架构,NVLink 已经经过了四代的发展演进。 每一层 NVLink 的更新,其每个 GPU 的互联带宽都是在不断的提升,其中 NVLink 之间能够互联的 GPU 数,也从第一代的 4 路到第四代的 18 路。
02、NVLink架构:技术核心与关键特性 NVLink 是 NVIDIA 专为高性能计算设计的互联技术,旨在实现 GPU 间或 GPU 与 CPU 间的高速数据交换。 03、技术演进:从NVLink 1.0到5.0 的跨越 NVLink 自 2016 年首次亮相以来,经历了五代技术迭代,每一代都针对计算需求的增长进行了优化。 04、NVLink技术原理分析 信号技术 NVLink 的信号技术从 NRZ 进化到 PAM4。 协议栈 NVLink 使用定制的协议栈,优化了数据包格式和传输机制。与 PCIe 相比,NVLink 的协议更精简,减少了开销,降低了延迟。 07、写在最后:NVLink的计算革命 NVLink 从 2016 年的初代到 2024 年的第五代,已成为 AI 和 HPC 的核心技术。
本周美国能源署宣布计划打造两部搭载 NVIDIA GPU 加速器的超级计算机,每秒运算速度将可达 100 petaflops , NVIDIA 并正为超级计算机开发 NVLink 技术的核心基础,以更流畅方式连接系统的 NVIDIA 推出全球第一个高速 GPU 互联技术 NVLink ,提供更快速的替代方案。 NVLink 可让现今 GPU 和 CPU 之间的数据传输速度加快 5 至 12 倍,足以让数据流畅地由 CPU 存储器传输至 GPU 。 除此之外, NVLink 让 CPU 和 GPU 以崭新的方式连接,能够让服务器的设计更有弹性,比 PCI Express 更具能源效率。
随着NVIDIA多节点NVLink的引入,这个限制消失了。不同服务器中的GPU现在可以通过NVIDIA NVLink交换机以全NVLink带宽进行通信,将整个机架转变为单一、统一的GPU结构。 一个DGX GB200系统,顶部有10个计算托盘,底部有8个计算托盘,通过中间的九个NVLink交换机连接,创建了一个通过多节点NVLink(芯片到芯片1.8 TB/s;累计带宽超过130 TB/s)完全连接的 在Kubernetes上支持多节点NVLink那么,在Kubernetes上支持多节点NVLink需要什么,ComputeDomains如何帮助实现这一点? 请参考下图,以更好地理解多节点NVLink环境中NVLink域、IMEX域以及其他可能的GPU分区层次之间的关系。图2. 多节点NVLink环境中可用的分区层级。 # 此标签由某中心GPU Operator设置(基于静态NVLink配置状态)。
在集合通信超节点编程中,一个超节点就被叫做一个NvLink域或AccLink域。 也就是大家所熟知的MNNVL(Multi-Node NvLink)多节点NvLink或MNACL(Multi-Node AccLink)多节点AccLink。 服务器节点A和服务器节点B的众多GPU通过NvLink/AccLink相连,构成了NvLink/AccLink域,是多节点的NvLink/AccLink。 1.构建GPU的PCIe树2.将网卡添加到GPU的PCIe树中3.如果有NvLink/AccLink连接,将NvLink/AccLink添加到拓扑中。 2.2 集合通信算法传统非超节点集合通信,由于节点内NvLink/AccLink的通信延迟带宽性能远高于跨服务器的网卡通信,因此集合通信算法严格区分节点内和节点间通信。
NVLink纵向扩展结构驱动AI工厂收入NVLink Fusion提供对NVLink纵向扩展技术的定制访问NVIDIA推出NVLink Fusion,旨在让超大规模用户能够访问所有经过生产验证的NVLink 对NVLink纵向扩展结构技术的访问包括NVLink SERDES、NVLink芯片组、NVLink交换机以及机架规模架构的所有方面。 NVLink Fusion采用NVLink纵向扩展结构的灵活基础设施选项对于定制XPU配置,与NVLink的接口利用通用芯片互连高速IP和接口的集成。 通过NVLink芯片组,XPU访问NVLink的NVLink Fusion对于定制CPU配置,建议集成NVIDIA NVLink-C2C IP以实现与NVIDIA GPU的连接,从而获得最佳性能。 通过NVLink-C2C,定制CPU访问NVLink的NVLink Fusion得到广泛、生产就绪的合作伙伴生态系统的支持NVLink Fusion包含一个强大的硅生态系统,包括定制硅片、CPU和IP技术合作伙伴
1 从EthLink的星星之火到UALink的燎原之势 上一篇分享文章——《媲美英伟达下一代GPU Scale-up:字节版NVLink重塑MegaScale万卡集群网络?》 痛点一:难以承受的“NVIDIA税”与生态锁定 在高性能AI计算领域,NVIDIA的NVLink/NVSwitch和InfiniBand网络凭借其卓越性能,构建了一个近乎垄断的“围墙花园”。 而专为Scale-up设计的NVLink——Load/Store内存语义虽能实现极致的低延迟却又是一个封闭的黑盒。市场迫切需要一种方案——能兼顾以太网的开放与成本优势,同时具备私有协议的高效与可靠。 单GPU带宽 厂商自定义(例如通过多个800 Gbps端口) 1.8 TB/s(双向) NVLink凭借其软硬件一体化设计,在单GPU的账面带宽上占据优势。 AI数据中心的战役已经打响:一边是NVIDIA凭借“CUDA+NVLink”构建的、软硬一体、性能极致的“集权”帝国;另一边是UALink联盟高举“开放+性价比”大旗组建的“联邦”军队。
这套系统搭载两个 IBM 的 POWER8 CPUs 通过 NVLink 高速界面与四个 NVIDIA Tesla P100 GPUs 相连。 这个专门打造的 GPU 加速器服务器,在主机板上的所有指令透过NVLink 传递,并且使用 Tesla P100 SXM2 GPU。 ? IBM Power系统 S822LC的两个 IBM POWER8 CPUs 透过 NVLink 界面与四个 NVIDIA Tesla P100 GPUs 相连。 ORNL 与 LLNL 将新系统当成优化应用项目的开发平台,以发挥 NVLink 技术的优点。 (Buddy) Bland 说:“POWER 平台上的 NVLink 技术为 CPUs 与 GPUs 里多个存储器阶层之间提供了一致性。
众所周知 Nvidia在GPU互联中 针对机内和机间有两套网络法宝 用于南北的NVLink和用于东西的InfiniBand 对标私有(死贵) IB 挑战者们成立了 UEC 联盟 计划用开放的以太网来降低成本 UALink将基于 Infinity Fabric 该协议是 AMD 公司的GPU互联协议 UALink 1.0 规范 计划实现单POD 1024加速器 再结合 UCE 去做 Scale out 网络 那拳打NVLink
DGX-H100 使用的是第三代 NVSwitch 和第四代 NVLink 技术,其中每一个 GPU 卡支持 18 条 NVLink 链路。 从 V100 GPU 开始,英伟达重新使用了 NVLink 的 IP 块和 XBAR 设计,这不仅保证了不同代产品之间的兼容性,也使得 NVLink 技术能够不断迭代和优化,同时减少了开发成本和时间。 这意味着多个 GPU 通过共享的 NVLink 链路进行通信。然而,这种方法的一个限制是任意两个 GPU 之间的最大带宽受限于它们所在 Gang 的 NVLink 数量和带宽。 每个 GPU 都能利用 NVLink 提供的高带宽,实现快速的数据交换。 新 NVLink 模块新 NVLink 模块的集成,不仅为数据和芯片提供了额外的安全保护,防止未授权访问和潜在的数据泄露,更增强了系统的数据安全性。
传统Scale-up网络(如NVLink)依赖的Load/Store语义在传输大块数据时会消耗宝贵的计算资源;而传统Scale-out网络(如RoCEv2)的RDMA协议栈又相对笨重。 EthLink及其背后的ETH-X、UALink等开放联盟,是在AI算力战场上的一场“阳谋”:赌的是“众人拾柴火焰高”,用开放生态的灵活性与成本优势去挑战NVIDIA NVLink这样软硬全栈锁定的极致性能方案