首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 解析GPUDirect RDMA及类似技术

    后续该技术方案逐渐成熟,并于2012年随Kepler架构GPU和CUDA 5.0一起发布,并被正式命名为GPUDirect RDMA。 GPUDirect 1.0通过下面技术手段,通过共享缓冲区,消除了CPU参与的InfiniBand网卡与GPU之间的内存拷贝,减少了30%的GPU之间的通信时间。 但在GPUDirect 1.0 方法中,存储在 GPU 内存中的数据仍会被复制到系统内存中,而GPUDirect RDMA针对此进行了进一步改进,使得RDMA网卡能够直接访问 GPU 显存,不需要借助主机系统内存 在GPUDirect改善了数据路径的传输性能之后,在2016年,CUDA8.0中还进一步发布了GPUDirect Async技术,通过该技术,可以优化GPU和网卡之间的控制路径,把CPU进一步解放出来。 DMA-BUF是和GPUDirect差不多时间的一个技术,它2012年就被收入Linux 3.3 主线内核(和GPUDIrect RDMA同一年)。

    87810编辑于 2026-01-27
  • 来自专栏GPUS开发者

    DGX Spark是否支持GPUDirect RDMA技术?一文看懂

    因此,DGX Spark不支持GPUDirect RDMA技术。

    42910编辑于 2025-11-29
  • 来自专栏存储公众号:王知鱼

    忆芯科技:Flash2DRAM 动态数据加载

    GPUDirect Storage 实现了数据从存储设备直接传输到 GPU 显存,省略了系统内存的中间环节。 NVIDIA GPUDirect RDMA 技术扩展 GPUDirect Storage 是 NVIDIA GPUDirect 技术的扩展,GPUDirect 包括支持网络设备(如 InfiniBand 实现 GPUDirect Storage 所需的适配 要部署 GPUDirect Storage,需要从以下几个方面进行适配 1. 硬件支持 GPU 必须使用支持 GPUDirect 的 NVIDIA GPU,如 A100、H100、以及其他较新的 GPU。 GPUDirect Storage 的实现流程 数据请求 GPU 通过 cuFile 或其他 API 请求数据。

    55100编辑于 2025-02-11
  • 来自专栏AI前沿技术

    大模型训练—Nvidia GPU 互联技术全景图

    1.2,优化版,GPUDirect Storage GPUDirect Storage 是什么? Storage 是GPUDirect 系列技术之一,GPUDirect 经过多年的发展,如今已经包含四种技术,分别是: 1)GPUDirect Storage 2)GPUDirect RDMA 3)GPUDirect P2P (peer to peer) 4)GPUDirect for Video GPUDirect Storage 功能和优势? 2.2,优化版GPUDirect P2P(Peer-to-Peer) GPUDirect P2P 是什么? 长被用于频繁的 CPU-GPU数据传输) 3.2,GPUDirect RDMA 优化 GPUDirect RDMA 是什么?

    88811编辑于 2026-01-13
  • 来自专栏云云众生s

    Kubernetes中NVIDIA GPU Operator基本指南

    配置 GPUDirect RDMA 和 GPUDirect 存储: GPUDirect RDMA (远程直接内存访问): 促进不同节点上的 GPU 之间的直接通信,绕过 CPU 并减少延迟,这对高性能计算应用程序至关重要 (vGPU vs MIG vs 时间切片) GPUDirect RDMA 和 GPUDirect 存储 NVIDIA GPUDirect RDMA (远程直接内存访问) 和 GPUDirect Storage (GPUDirect RDMA:通过网络直接连接 GPU) 类似地,GPUDirect Storage 促进 GPU 与存储设备之间的直接数据传输,绕过 CPU 和系统内存。 (带有和不带有 GPUDirect Storage 的存储访问模式) GDR 复制 (GPUDirect RDMA (GDR) 复制) GDR 复制 代表 GPUDirect RDMA 复制,它是一个基于 我们还检查了 GPU OPERATOR支持的关键技术,例如 GPUDirect RDMA 和 GPUDirect 存储,它们对于低延迟、高速数据传输至关重要。

    2.9K21编辑于 2024-07-23
  • 来自专栏数通

    GPU算力爆发下的I/O瓶颈,是怎么一回事

    除了专注于存储I/O加速的GPUDirect Storage(GDS)技术外,GPUDirect的核心技术还包括: • GPUDirect RDMA:实现网络设备直通GPU显存 • GPUDirect 图7 GPUDirect RDMA GDS可与GPUDirect RDMA协同工作,构建跨节点的高效端到端零拷贝数据通路。 图8 GPUDirect RDMA与GDS协同工作 GPUDirect P2P GPUDirect P2P(Peer-to-Peer,点对点)是NVIDIA基于PCIe P2P标准在GPU架构上实现的优化扩展 图9 GPUDirect P2P GPUDirect Video GPUDirect Video是NVIDIA针对视频流处理优化的硬件直连架构,基于DisplayPort/HDMI协议扩展,支持视频采集设备 图10 GPUDirect Video 在视频分析场景中,GPUDirect Video可与GPUDirect RDMA形成处理闭环:视频流通过GPUDirect Video直入显存,经CUDA核处理后

    68810编辑于 2025-12-25
  • 来自专栏DPU

    使用 DPDK 和 GPUdev 在 GPUs上增强内联数据包处理

    GPUDirect RDMA 依赖于 NVIDIA GPU 在 PCI Express 基址寄存器 (BAR) 区域上公开部分设备内存的能力。 有关更多信息,请参阅CUDA 工具包文档中的使用 GPUDirect RDMA 开发 Linux 内核模块。 现代服务器平台上的 GPUDirect RDMA 基准测试一文对使用不同系统拓扑的标准 IB 动词执行网络操作(发送和接收)时的 GPUDirect RDMA 带宽和延迟进行了更深入的分析。 NVIDIA GPUDirect RDMA 使用 PCI Express 标准功能在 GPU 和第三方对等设备之间提供直接数据交换路径 要在 Linux 系统上启用 GPUDirect RDMA,需要nvidia-peermem 通过以下指令序列,您可以启用 GPUDirect RDMA 在 GPU 内存中分配内存池,并将其注册到设备网络中。

    1.5K10编辑于 2024-05-03
  • 来自专栏存储公众号:王知鱼

    内存焦虑?长文梳理: HBM/DRAM/CXL/HBF/GPU-Direct

    HBF堆叠架构,详见文末参考资料19 GPU-Direct 闪存 (GPU-Direct Flash) 这并非一种内存介质,而是一种数据路径加速技术,其代表是NVIDIA的GPUDirect Storage on August 8, 2025, https://developer.nvidia.com/blog/gpudirect-storage/ What is GPUDirect Storage? | WEKA, accessed on August 8, 2025, https://www.weka.io/learn/glossary/gpu/what-is-gpudirect-storage/ The Micron - 9400 NVMe SSD Performance With NVIDIA - Magnum IO GPUDirect - Storage Platform, accessed topic=architecture-gpudirect-storage-support-storage-scale Amazon FSx for Lustre now supports Elastic

    3.2K20编辑于 2025-10-09
  • 来自专栏存储公众号:王知鱼

    SuperMicro:AI存储硬件方案

    GPUDirect 存储直接从/向 GPU 内存传输数据,消除了 CPU 或主内存的负载。 • Supermicro 提供一系列 GPU 密集型服务器,以满足每个应用层级的需求。 • High-Performance All-Flash Tier(高性能全闪存层) • 应用层(Application Tier):使用 GPU 密集型服务器,通过 GPUDirect 存储进行直接传输 High-Capacity Data Lake(高容量数据湖) • 应用层(Application Tier):GPU 密集型服务器,通过 GPUDirect 存储直接进行传输。

    83910编辑于 2025-02-11
  • 来自专栏存储公众号:王知鱼

    WD:适配GPU DAS的存储系统设计

    WD:适配GPU DAS的存储系统设计-Fig-2 使用NVIDIA GPUDirect和Western Digital解耦存储技术 左侧:没有GDS的情况下 GPU需通过CPU复杂路径从本地SSD读取机器学习数据 图片强调了 GPUDirect Storage(GDS)架构在本地部署时需要注意的关键点: 架构限制:许多服务器平台的架构无法高效支持 NVMe 到 GPU 的直接访问。 具体信息如下: 性能对比: 当启用GPUDirect Storage时,系统能够达到13 FPS(帧每秒)和最高89 GBS(千兆字节每秒)的读取吞吐量。 当禁用GPUDirect Storage时,系统性能下降到4 FPS和最高15 GBS的读取吞吐量。 数据处理能力: 启用GPUDirect Storage时,系统每65秒可以处理约5.9TB的数据集。 这种高性能使得用户能够进行交互式导航、实时参数调整以及轻松地通过模拟进行擦除。

    83210编辑于 2025-02-11
  • 来自专栏存储公众号:王知鱼

    AI概念横空,企业数据准备好了吗?

    这为那些能够与 NVIDIA 架构(例如,支持 GPUDirect Storage 技术)紧密结合的存储和数据管理公司创造了巨大的市场机遇。 机制四:NVIDIA GPUDirect 与 Tier 0 存储 Hammerspace 已通过 NVIDIA GPUDirect Storage 认证 16。 其关键优势在于,作为一个软件层,它能使任何底层存储(即使是本身不支持 RDMA 的传统 NAS)对 GPU 呈现为 GPUDirect-enabled 的数据源 16。 可使任何底层存储支持 GPUDirect。创新的 "Tier 0" 本地 NVMe 利用技术 16。 已认证。与 DGX SuperPOD/BasePOD 深度集成。 / GPUDirect Demystified: Why Your File System is Crucial for Maximum GPU Throughput & Efficient AI Data

    41810编辑于 2025-07-27
  • 来自专栏信数据得永生

    PyTorch 1.0 中文文档:torch.distributed

    具有InfiniBand互连的GPU主机 使用NCCL,因为它是目前唯一支持InfiniBand和GPUDirect的后端。

    83220编辑于 2022-05-07
  • NVIDIA BlueField-3 DPU及配套开发套件DOCA简介

    加速交换和数据包处理、SR-IOV、 VirtIO 加速 、Overlay 网络加速、用户自定义数据流分类、无状态 TCP 卸载等 4.HPC/AI加速 HPC / AI All-to-All 引擎、GPUDirectGPUDirect Storage (GDS)、 HPC MPI 标签匹配 就像NVIDIA的GPU配套CUDA一样,BlueField-3 DPU也有自己配套的软件框架DOCA。

    1.4K10编辑于 2025-05-30
  • Linux PCIe P2PDMA 技术介绍

    4.3 提升分布式训练通信效率 虽然 P2PDMA 主要用于存储与 GPU 之间,但其背后的 GPUDirect 技术同样适用于网卡与 GPU 之间(GPUDirect RDMA)。 有关 GPUDirect RDMA 的更多技术细节,请参阅 GPUDirect RDMA 与 Storage 技术详解。 5. 最佳实践:NVIDIA GPUDirect Storage (GDS) GPUDirect Storage (GDS) 是 NVIDIA 基于 P2PDMA 技术构建的完整解决方案,它将底层复杂的硬件细节封装成了易用的 [2] 它与仅用于 GPU 间内存访问的 GPUDirect P2P 类似,但将范畴扩展到了存储领域。 1. 网络传输路径支持 GPUDirect RDMA(如使用支持该特性的网卡) 3.

    69710编辑于 2026-03-04
  • 来自专栏云深知网络 可编程P4君

    100G智能网卡能干啥?

    100Gbps 更直观看一下 Nitro与主板的配合 C6gn实例采用自家ARM芯片 正是有了Nitro的帮助 P4d号称是业界首个云上 提供400Gbp网络带宽的ML实例 通过EFA和NVIDIA GPUDirect

    68640编辑于 2023-02-15
  • 来自专栏存储公众号:王知鱼

    KIOXIA:超高IOPS SSD的需求和设计

    阅读收获 掌握GPU显存扩展策略:理解GPUDirect Storage等技术如何利用本地SSD作为GPU HBM的“扩展层”,使AI模型能够处理10倍至100倍大的数据集,有效缓解显存容量瓶颈。 关键实现技术是“GPU发起的I/O” (GPU-initiated I/O),例如NVIDIA的GPUDirect Storage。 KIOXIA 使用 XL-FLASH结构创新来降低传统NAND访问时延,从而避免片上集成大量SRAM 延伸思考 这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~ GPUDirect

    43410编辑于 2025-11-29
  • 来自专栏全栈程序员必看

    GPU技术_支持nvlink的显卡

    背景 上一篇文章《浅析GPU通信技术(上)-GPUDirect P2P》中我们提到通过GPUDirect P2P技术可以大大提升GPU服务器单机的GPU通信性能,但是受限于PCI Expresss总线协议以及拓扑结构的一些限制

    4.2K20编辑于 2022-11-17
  • 来自专栏GPUS开发者

    CUDA新手要首先弄清楚的这些问题

    答复:GPUDirect技术允许你直接这样做,具体可以访问这个页面: https://developer.nvidia.com/gpudirect 6 问:CPU和GPU之间的峰值传输速率是多少?

    2.2K10发布于 2019-11-11
  • 来自专栏SDNLAB

    从天猫双11成交额2684亿看RDMA网络

    所谓GPUDirect RDMA,就是计算机1的GPU可以直接访问计算机2的GPU内存。 GPUDirect RDMA技术使得进一步减少了GPU通信的数据复制次数,通信延迟进一步降低。 NVIDIA 的GPUDirect由点对点和RDMA组件组成,兼容多种通信互联产品与API,包括NVIDIA NVLink™和NCCL以及OpenMPI和UCX。 由于GPUDirect RDMA的出现进一步降低了通信的延迟,在 re:Invent 2018 上,AWS发布了 Elastic Fabric Adapter (EFA),它是一种用于 Amazon EC2

    2.7K20发布于 2019-12-19
  • 来自专栏GPUS开发者

    【DGX Spark新手避坑指南】——从SSID消失到内存爆满,高频问题解决方案全解析!

    Q:DGX Spark是否支持GPUDirect RDMA技术? 因此,GPUDirect RDMA技术及基于该技术的直接I/O机制(如nvidia-peermem、dma-buf、GDRCopy)均不可用。

    1.3K11编辑于 2025-11-20
领券