搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI工程落地
Nvidia技术壁垒之一--NVLink&NVSwitch
Nvidia新的产品的NVSwitch就是用来解决这个问题的，具体可以参考Nvidia的官网介绍：NVIDIA NVLink and NVIDIA NVSwitch Supercharge Large Language Model Inference | NVIDIA Technical Blog NVSwitch NVSwitch是显卡互联交换机，使用的时候需要配合NVLink，把NVLink一端连到显卡上，另一端连到NVSwitch上。但NVSwitch直接跳过这些，直接把多机器间的卡连起来。以下是使用InfiniBand和NVSwitch互联的性能对比：可以看到NVSwitch竟然比InfiniBand还要快4.5倍，InfiniBand只有超算中心才能用的起。
6.1K21编辑于 2024-09-06
转载：【AI系统】NV Switch 深度解析
DGX-A100 使用的是第二代 NVSwitch 技术。相比于第一代，第二代 NVSwitch 提供了更高的通信带宽和更低的通信延迟。第一代 NVSwitch 支持 18 路接口，NVSwitch 能够支持多达 16 个 GPU 的全互联，实现高效的数据共享和通信。引入 NVSwitch 后的改进英伟达的 NVSwitch 技术为 GPU 间的通信带来了革命性的改进。NVSwitch 作为一个高速交换机，允许所有链路上的数据进行交互。 NVSwitch 在解决多 GPU 间的互联有以下优势和特性：扩展性与可伸缩性： NVSwitch 的引入为 GPU 集群的扩展性提供了强大的支持。第三代 NVSwitch从上图可以看出，第三代 NVSwitch 采用了 TSMC 的 4N 工艺制造，即使在拥有大量晶体管和高带宽的情况下，也能保持较低的功耗。
73710编辑于 2024-12-11
来自专栏AI系统
【AI系统】NV Switch 深度解析
DGX-A100 使用的是第二代 NVSwitch 技术。相比于第一代，第二代 NVSwitch 提供了更高的通信带宽和更低的通信延迟。第一代 NVSwitch 支持 18 路接口，NVSwitch 能够支持多达 16 个 GPU 的全互联，实现高效的数据共享和通信。 NVSwitch 简化原理与特性无 NVSwitch 的直接 GPU 间连接图片如上图所示，在没有 NVSwitch 的配置中，GPU 之间的连接通常是通过将 NVLinks 聚合成多个组（Gang）来实现的引入 NVSwitch 后的改进英伟达的 NVSwitch 技术为 GPU 间的通信带来了革命性的改进。NVSwitch 作为一个高速交换机，允许所有链路上的数据进行交互。 NVSwitch 在解决多 GPU 间的互联有以下优势和特性：扩展性与可伸缩性：NVSwitch 的引入为 GPU 集群的扩展性提供了强大的支持。
1.5K10编辑于 2024-11-27
来自专栏硅光技术分享
NVLink的演进
NVSwitch 1.0含有18个port, 每个port的带宽为50GB/s, 整体带宽为900GB/s。每个NVSwitch预留了两个port, 用于连接CPU。使用6个NVSwitch即可实现8颗GPU V100的all-to-all连接，如下图所示。由8颗GPU A100与4个NVSwitch组成了DGX A100, 如下图所示。 NVSwitch也升级到第三代，每个NVSwitch支持64个port，每个port的速率为50GB/s。DGX H100由8颗H100芯片与4颗NVSwitch芯片构成，如下图所示。图中每个NVSwitch的另一侧与多个800G OSFP光模块相连。
5K21编辑于 2023-09-25
来自专栏网络虚拟化
NVLink1.0~5.0: 高速互联的架构演进之路
可扩展性：结合 NVSwitch，NVLink 支持全连接拓扑，使多 GPU 系统实现高效通信。引入 NVSwitch，一个高性能交换矩阵，支持全连接拓扑，允许多达 16 个 GPU 直接通信。软硬件架构：NVSwitch 作为独立芯片，集成在 DGX-2 系统，连接 16 个 V100 GPU。技术演进亮点：引入 NVSwitch，支持全连接拓扑，带宽增至 300 GB/s，广泛用于 DGX-1 系统。 NVSwitch：NVSwitch 扩展了 NVLink 的连接能力，支持全连接拓扑。
4.7K10编辑于 2025-04-30
来自专栏AI前沿技术
大模型训练—Nvidia GPU 互联技术全景图
主要涉及GPUDirect系列，NVLink、NVSwitch等核心技术介绍。大规模多GPU或者多节点之间的互联通信，需要NVSwitch上点硬科技。 NVSwitch 是什么? NVSwitch 功能和优势？类似于PCIe使用PCIe Switch用于拓扑的扩展，Nvidia使用NVSwitch实现了NVLink的全连接。 NVSwitch作为节点交换架构，支持单节点中16个GPU全互联，并且支持8对GPU同时通信。全互联拓扑：NVSwitch 支持全互联拓扑，每个 GPU 都可以直接与其他 GPU通信，避免了通信瓶颈。
85211编辑于 2026-01-13
来自专栏量子发烧友
（下）基于算力加速的量子模拟问题
NVLINK和NVSWITCH——更高宽带与更低延迟 NVLINK和NVSWITCH可支持服务器内和服务器间实现高级多GPU通信的基础模组。第三代NVIDIA NVSwitch基于NVLink的高级通信能力构建，可为计算密集型工作负载提供更高带宽和更低延迟。为了支持高速集合运算，每个NVSwitch都有64个NVLink端口，并配有NVIDIA SHARP引擎，可用于网络内归约和组播加速。 NVLINK与NVSWITCH协同工作，NVLink是一种GPU之间的直接互连，可扩展服务器内的多GPU输入/输出 (IO)。 NVSwitch可连接多个NVLink，在单节点内和节点间实现以NVLink能够达到的最高速度进行多对多GPU通信。
87520编辑于 2023-02-24
来自专栏AI系统
【AI系统】分布式通信与 NVLink
如上图所示，通过 NCCL 库，我们可以利用 NVLink 或 NVSwitch 将不同的 GPU 相互连接起来。 NVLlink 与 NVSwitch 发展NVLink 和 NVSwitch 是英伟达推出的两项革命性技术，它们正在重新定义 CPU 与 GPU 以及 GPU 与 GPU 之间的协同工作和高效通信的方式 NVSwitch 发展如上图所示，NVSwitch 技术从 Volta 架构到 Hopper 架构，经历了三代的演进与发展。而到了 V100 中，每一个 GPU 可以通过 NVSwitch 和另外一个 GPU 进行互联。到了 A100 中，NVSwitch 再次升级，节省了很多的链路，每一个 GPU 可以通过 NVSwitch 和任何一个 GPU 进行互联。
60010编辑于 2024-11-27
GPU fieldiag测试介绍
testsPCIE带宽检测，眼图检测nvlink～24minN/ASupportedSupportedNVLink bandwidth，eye diagram testsnvlink带宽检测，眼图检测nvswitch ASupportedSupportedGPU stress testsGPU压测power～24minN/ASupportedSupportedStress power on system components(GPU NVSwitch )供电压测thermal～2h 16minN/AN/ASupportedStress thermal on system components(GPU, NVSwitch)温度压测Total timeN
10.5K01编辑于 2024-05-27
GPU fieldiag 介绍
testsPCIE带宽检测，眼图检测nvlink～24minN/ASupportedSupportedNVLink bandwidth，eye diagram testsnvlink带宽检测，眼图检测nvswitch ASupportedSupportedGPU stress testsGPU压测power～24minN/ASupportedSupportedStress power on system components(GPU NVSwitch )供电压测thermal～2h 16minN/AN/ASupportedStress thermal on system components(GPU, NVSwitch)温度压测Total timeN
2.9K10编辑于 2024-05-27
来自专栏机器之心
深度 | 从GPU制造者到服务器提供商：英伟达的计算平台转型
本质上，NVSwitch 结构为 GPU 节点创建了一个 512 GB 的巨大的共享内存空间，以 10 千瓦的功耗，在 Tensor Core 上达到近 2 Petaflops 的算力。每个 GPU 通过 6 个 50 GB / 秒且聚合在一起的 NVLink 2.0 端口连接到 NVSwitch 复合体中，通常来说，NVSwitch 具有 300 GB / 秒的带宽。 HGX-2 平台不仅通过 NVLink 和 NVSwitch 架构，还采用了大量网络架构来实现这种性能。以下是一张关于 HGX-2 平台的内嵌 NVSwitch 拓扑结构的框图，比三月份提供的图示好得多。 ? CPU 通常与主板上任意一块特定的 GPU 相距 3 个节点，同时 NVSWitch 复合体与系统中其他任意一块 GPU 再远一个节点。
1.7K00发布于 2018-07-30
来自专栏存储公众号：王知鱼
计算向左，内存向右；ScaleUp Fabric与内存池化
NVIDIA架构局限性：认识到当前NVLink/NVSwitch架构中内存与计算紧密耦合的缺陷，导致AI推理资源配置低效和成本高昂。 NVIDIA的NVLink/NVSwitch架构在ScaleUp领域独步天下，然而，其内存与计算紧密耦合的模式，尤其在对成本敏感的AI推理场景下，正面临资源配置效率的严峻考验。解决方案：NVSwitch：为了解决这个扩展性问题，NVIDIA引入了“NVSwitch”。DGX-2的架构利用12个NVSwitch构建了一个交换式NVLink结构。 ”是一个更广泛的术语，可以包含多种不同类型的节点内高速互联交换技术（NVSwitch只是其中一种）。当前主流的ScaleUp Fabric实现（特指NVIDIA的NVLink/NVSwitch架构）存在一个重大缺陷：它无法实现内存和计算的独立扩展（即解耦）。
66610编辑于 2025-11-29
来自专栏全栈程序员必看
GPU技术_支持nvlink的显卡
2.3.3 NVSwitch 为了解决混合立方网格拓扑结构的问题，NVIDIA在今年GTC 2018上发布了NVSwitch。类似于PCIe使用PCIe Switch用于拓扑的扩展，NVIDIA使用NVSwitch实现了NVLink的全连接。 NVSwitch作为首款节点交换架构，可支持单个服务器节点中 16 个全互联的 GPU，并可使全部 8 个 GPU 对分别以 300 GB/s 的惊人速度进行同时通信。关于NVSwitch的相关技术细节可以参考NVIDIA官方技术文档。应该说这一技术的引入，使得GPU间通信的带宽又大大上了一个台阶。 3. 使用NVSwitch的DGX-2则能够达到2倍以上的深度学习和高性能计算的加速。版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。
4.2K20编辑于 2022-11-17
转载：【AI系统】分布式通信与 NVLink
如上图所示，通过 NCCL 库，我们可以利用 NVLink 或 NVSwitch 将不同的 GPU 相互连接起来。 NVLlink 与 NVSwitch 发展NVLink 和 NVSwitch 是英伟达推出的两项革命性技术，它们正在重新定义 CPU 与 GPU 以及 GPU 与 GPU 之间的协同工作和高效通信的方式 NVSwitch 发展如上图所示，NVSwitch 技术从 Volta 架构到 Hopper 架构，经历了三代的演进与发展。而到了 V100 中，每一个 GPU 可以通过 NVSwitch 和另外一个 GPU 进行互联。到了 A100 中，NVSwitch 再次升级，节省了很多的链路，每一个 GPU 可以通过 NVSwitch 和任何一个 GPU 进行互联。
47210编辑于 2024-12-11
来自专栏光芯前沿
Intel SC25报告：NVL576之后，光子学将引领超算解聚时代
NVL72的架构设计围绕“最小化传输距离”展开，采用最优单跳拓扑结构，通过并行网络链路实现性能提升——18个NVSwitch与72个GPU构成二分图连接，每个GPU的连接数与交换机数量对应，每个交换机的连接数则匹配每个网络blade包含3个NVswitch，4个canister总计72个NVswitch，形成高密度的计算与网络架构。与之配套的NVswitch同样实力强劲，配备288个400Gig端口，总双向带宽达28.8TB/s（115Tbits/s），功耗估计约2500W，是当前Quantum-X交换机144端口版本带宽的4倍。从带宽分布来看，NVL576在canister内通过正交PCB背板实现259.2TB/s的连接带宽，而canister间连接则依赖光子学技术，提供518TB/s的光带宽；GPU到NVswitch的总带宽达到根据公开数据估算，NVL576的GPU总功耗达460800W，NVswitch总功耗为364608W，整机总功耗高达825408W（约825KW），远超NVL72的150KW。
48810编辑于 2025-12-24
来自专栏RDMA
MNNVL（Multi-Node NvLink）、NCCL超节点集合通信
3.1 拓扑识别3.1.1 NvSwitch/AccSwitch交换芯识别早期集合通信中，由于GPU数量有限，直接GPU间直连即可，没有NvSwitch/AccSwitch(NVS/ACS)，不需要识别交换芯片因此在超节点拓扑识别中所要做的第一步就是将NvSwitch/AccSwitch交换芯识别出来。当然ACCL/NCCL超节点还有在网计算、Symmetric Memory对称内存、单端put/fetch操作，AccSwitch/NvSwitch特性等等。记得点个关注、我们下次有时间继续分享。
58210编辑于 2025-11-30
来自专栏CVer
英伟达的这款GPU太强了！
图14 DPX 指令加速动态规划图15 用于基因组测序的 Smith-Waterman 算法第四代 NVLink 和第三代 NVSwitch NVLink 是 NVIDIA 开发的一种高带宽、图17 NVLink 性能改进第三代 NVSwitch 技术包括位于节点内部和外部的交换机，用于连接服务器、集群和数据中心环境中的多个 GPU。每个 NVSwitch 提供 64 个第四代 NVLink 链路端口，以加速多 GPU 连接。总交换机吞吐量从上一代的 7.2 Tbits/sec 增加到 13.6 Tbits/sec。新的第三代 NVSwitch 技术并配有 NVIDIA SHARP 引擎，可用于网络内归约和组播加速。新的 NVLink Switch System 为加速大型 AI 模型，可以将第四代 NVLink 和第三代 NVSwitch 结合以构建 NVLink Switch System networks。
2K20编辑于 2022-06-13
来自专栏人工智能LeadAI
最强大的人工智能系统 | NVIDIA DGX-2
它采用 NVIDIA® DGX™ 软件和基于 NVIDIA NVSwitch 技术构建的可扩展架构，可以帮您应对众多复杂的人工智能挑战. 01 非同一般的计算能力造就出众的训练性能人工智能日益复杂现在，您可以利用 NVIDIA NVSwitch 网络架构进行模型并行训练。
1.1K00编辑于 2023-03-28
来自专栏新智元
CUDA编程模型都改了！英伟达架构师团队撰文详解：Hopper为啥这么牛？
第三代NVSwitch技术包括驻扎在节点内部和外部的交换机，用于连接服务器、集群和数据中心环境中的多个GPU。节点内的每个NVSwitch提供64个第四代NVLink链接端口，以加速多GPU连接。新的第三代NVSwitch技术还为多播和NVIDIA SHARP网内还原的集体操作提供了硬件加速。新的NVLink Switch系统互连技术和基于第三代NVSwitch技术的新的二级NVLink Switches引入了地址空间隔离和保护，使多达32个节点或256个GPU能够通过NVLink以2:1的锥形树状拓扑连接起来
1.2K20编辑于 2022-04-06
来自专栏大数据文摘
刚刚，英伟达发布全球最强AI训练器HGX-2，可替换300个CPU服务器
驱动这个“超级计算平台”的是16个GPU和NVSwitch加速器，可更快，更高效地训练这些模型。 NVSwitch互连架构将16个Tesla®V100 Tensor Core GPU无缝链接起来，作为一个单一的巨型GPU。
61720发布于 2018-06-29

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页

点击加载更多

Nvidia技术壁垒之一--NVLink&NVSwitch

转载：【AI系统】NV Switch 深度解析

【AI系统】NV Switch 深度解析

NVLink的演进

NVLink1.0~5.0: 高速互联的架构演进之路

大模型训练—Nvidia GPU 互联技术全景图

（下）基于算力加速的量子模拟问题

【AI系统】分布式通信与 NVLink

GPU fieldiag测试介绍

GPU fieldiag 介绍

深度 | 从GPU制造者到服务器提供商：英伟达的计算平台转型

计算向左，内存向右；ScaleUp Fabric与内存池化

GPU技术_支持nvlink的显卡

转载：【AI系统】分布式通信与 NVLink

Intel SC25报告：NVL576之后，光子学将引领超算解聚时代

MNNVL（Multi-Node NvLink）、NCCL超节点集合通信

英伟达的这款GPU太强了！

最强大的人工智能系统 | NVIDIA DGX-2

CUDA编程模型都改了！英伟达架构师团队撰文详解：Hopper为啥这么牛？

刚刚，英伟达发布全球最强AI训练器HGX-2，可替换300个CPU服务器

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐