搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI前沿技术
大模型训练—Nvidia GPU 互联技术全景图
NVLink版本和带宽：问题：当GPU个数大于NVLink最大连接数量时，这种的拓扑结构就cover不住了。大规模多GPU或者多节点之间的互联通信，需要NVSwitch上点硬科技。 NVSwitch 是NVIDIA 推出的一种高速互联芯片，专为多GPU系统设计，用以简化多GPU间实现全连接的拓扑设计，实现 GPU 之间的高效通信。 NVSwitch作为节点交换架构，支持单节点中16个GPU全互联，并且支持8对GPU同时通信。全互联拓扑：NVSwitch 支持全互联拓扑，每个 GPU 都可以直接与其他 GPU通信，避免了通信瓶颈。 4，总结：通过 GPUDirect Storage 技术实现了存储设备和GPU显存的直接访问，数据加载效率大大提升。通过GPUDirect P2P技术实现了GPU之间互联互通，可以快速访问。
52911编辑于 2026-01-13
来自专栏SRE云原生实践之路
互联网十万个为什么之什么是GPU？
此外，GPU的并行计算能力也使其在科学模拟、数据分析、深度学习和机器学习等领域变得日益重要，为这些领域提供了前所未有的速度和效率。 GPU是如何演变的？科学计算与模拟科学领域的研究人员依靠GPU处理大规模模拟和计算密集型任务。在物理学、生物学等学科中，GPU被用于模拟实验和分析数据。对于依赖复杂算法的分布式应用，GPU可以在后端提供必要的计算资源，以支持高性能和实时数据处理需求。 GPU的工作原理是什么？ GPU的并行架构 GPU的核心特点是其并行结构。一个GPU由成百上千个小型、高效的核心组成，这些核心分组成多个流处理器。这些核心在处理图形任务时非常高效，比如渲染像素或进行复杂的几何计算。内存和带宽 GPU有自己的专用内存，通常称为显存或VRAM。这种内存具有非常高的带宽，使得GPU能够快速地处理大量数据，这对于图形渲染和其他内存密集型任务至关重要。 GPU和CPU有什么区别？
1.4K10编辑于 2024-09-06
来自专栏daos
Intel开放互联接口OFI(libfabric)入门教程 rdma verbs gpu ai dma network HOTI 互联 HPC panda 博士
, 分布式存储, 网络, rdma等技术HOTI 热门互联网络技术视频链接: https://www.youtube.com/watch? gpu通信示例, 支持intel gpu, dpu, 或者其他供应商架构与四种服务图片控制类: 发现底层设备, 属性, 能力等通信接口: 建立连接, 初始资源等数据传输: 发送和接收数据完成服务: 报告发送或接收状态设备内存直接访问DMA libfabric示例图片libfabric GPU设备 -> host服务端: . /fi-rdmabw-xe -m device #使用GPU设备的内存客户端: . libfabric 代码相对位置: fabtests/component/dmabuf-rdma/fi-rdmabw-xe.c更多libfabric参考链接信息图片END, 谢谢图片附录HOTI 热门互联网络技术第
2.4K41编辑于 2023-10-02
来自专栏全栈程序员必看
虚拟GPU_vmware gpu
第三章浅谈GPU虚拟化技术（三）GPU SRIOV及vGPU调度 GPU SRIOV原理谈起GPU SRIOV那么这个世界上就只有两款产品：S7150和MI25。 VF调度 AMD GPU SRIOV从硬件的角度看就是一个对GPU资源的分时复用的过程。因此其运行方式也是与GPU分片虚拟化类似。SRIOV的调度信息后续重点介绍。 GPU SRIOV的调度系统分时复用 VF的调度是GPU虚拟化中的重点，涉及到如何服务VM，和如何确保GPU资源的公平分片。 GPU SRIOV也是一个分时复用的策略。 GPU分时复用与CPU在进程间的分时复用是一样的概念。一个简单的调度就是把一个GPU的时间按照特定时间段分片，每个VM拿到特定的时间片。在这些时间片段中，这个VM享用GPU的硬件的全部资源。不知不觉把GPU虚拟化的调度都在这章里讨论过了。很好，专门介绍GPU调度的章节可以省下来了。版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。
3.7K31编辑于 2022-11-16
来自专栏Java项目实战
【玩转 GPU】英伟达GPU架构演变
图片一、GPU架构发展历史 1999年,英伟达发布第一代GPU架构GeForce 256,标志着GPU时代的开始。图片Part One：介绍与概述互联网的发展速度越来越快，对于计算机的运行速度和计算能力提出了更高的要求。因此，GPU作为一种专门用于图形处理和运算的显卡，成为了性能升级的关键部分。本文将从互联网专家的角度出发，详细介绍英伟达显卡的运行原理、结构组成、各组件的介绍、应用技术、多模态构成及GPU运行原理等内容。 GPU核心的运行方式与CPU略有不同，在GPU核心中，CPU将数据和指令传送到GPU中去，GPU再将数据加载到GPU的内存中，并利用内部的流处理器执行计算任务。执行完成后，将计算结果传回CPU中。 Part Eight：结论本文通过从互联网专家的角度出发，详细介绍了英伟达显卡的运行原理、结构组成、各组件的介绍、应用技术、多模态构成及GPU运行原理等内容。
13.8K50编辑于 2023-06-08
来自专栏腾讯云原生团队
使用 Elastic GPU 管理 Kubernetes GPU 资源
但应用在 GPU 场景，还是存在以下不足：集群 GPU 资源缺少全局视角。没有直观方式可获取集群层面 GPU 信息，比如 Pod / 容器与 GPU 卡绑定关系、已使用 GPU 卡数等。由于 GPU 卡相对昂贵，并且某些 AI 负载吃不满单张 GPU 算力，GPU Sharing 技术应运而生。问题二：无法支持多 GPU 后端除分配挂载整卡的方式外，TKE qGPU、vCUDA、gpu share、GPU 池化等 GPU 共享技术越来越被用户采用。对 GPU 成本的关注，对 GPU 资源的整体把控，对 GPU 不同后端的精准使用，都成为了客户能用好 GPU 算力的前提条件。，可以是一块本地 GPU 物理卡、一个 GPU 切片资源（ GPU 算力 / 显存的组合）、一个远端 GPU 设备。
3.9K60编辑于 2022-04-21
来自专栏腾讯云服务器团队的专栏
奔涌吧，GPU! GPU选型全解密
大数据时代对计算速度提出了更高的要求，GPU处理器应运而生。那么，如何选择GPU呢？为了让大家了解不同应用场景下的GPU云服务器选型，我们邀请腾讯云大茹姐姐创作了这篇深度好文。在深入了解不同应用场景下的GPU云服务器选型推荐之前，我们先来了解一下CPU和GPU、GPU和vGPU之间的差异。 CPU和GPU硬件结构对比 GPU vs vGPU GPU云服务器提供了直通型GPU和虚拟化的vGPU，可以满足计算密集型场景和图形加速场景下的不同算力需求。 GN10X/GN10Xp、GN8、GN7等整卡实例均采用GPU直通技术； vGPU是指虚拟化GPU，支持GPU资源的更细粒度划分，如1/2、1/4以及1/8 GPU。云游业务架构图目前腾讯云Paas云游使用的云游戏解决方案是视频（或像素）流传输，游戏在云端服务器中存储、执行和呈现，并由云端服务器将游戏场景渲染为视频音频流，通过互联网流式传输到消费者的游戏终端。
20.5K2624发布于 2020-07-16
来自专栏人人都是极客
GPU渲染之OpenGL的GPU管线
GPU渲染流水线，是硬件真正体现渲染概念的操作过程，也是最终将图元画到2D屏幕上的阶段。 GPU管线涵盖了渲染流程的几何阶段和光栅化阶段，但对开发者而言，只有对顶点和片段着色器有可编程控制权，其他一律不可编程。如下图： ? 简单总结GPU管线，这阶段中主要是对图元进行操作。正因这独立性，GPU可以并行化处理每一个顶点，提高处理速度。顶点着色器最重要的功能是执行顶点的坐标变换和逐顶点光照。这样设计的好处是能减少一些不必要的绘制，并减少对GPU的浪费。回到正题，片段着色器同上述的顶点着色器，只是它作用的对象是每一片段，对其进行着色贴图。推荐阅读： GPU的工作原理两段小视频轻松理解CPU & GPU的工作原理 GPU内存分级
3.8K32发布于 2018-07-26
来自专栏教程_01
gpu使用
我们的实验硬件环境配置为：GPU计算型GN7|GN7.5XLARGE80(配置一颗NVIDIA T4),80内存。操作系统为 Windows Server 2019 数据数据中心版 64位中文版。腾讯云的GPU产品计算型GN7，使用在gpu上的效果不错，代码运行速率高，基本上各项功能都非常好，所以我觉得非常适合来做这项工作。总之，gpu效能很不错。
1.8K30编辑于 2022-05-30
来自专栏mathor
GPU accelerated
= optim.SGD(net.parameters(), lr=1e-3) criteon = nn.CrossEntropyLoss().to(device) # 同样将loss部分的计算转移到GPU 上去同样的，数据部分也可以转移到GPU上去 data, target = data.to(device), target.to(device)
1.2K10发布于 2020-01-14
来自专栏AI工程
GPU在哪？
TFRecord的形式上传到谷歌的对象存储服务上被TPU服务器访问在国内就是很麻烦因为这些问题，所以业务上，尤其是训练上，往往我们还是会依赖更传统的选择：GPU ---- 用GPU进行深度学习，那么 GPU在哪？ GPU大体上可以有下面几种方式：第一种，自己购买GPU服务器。当然了，很多时候个人要求不高，或者工作相对简单的时候，一台有独立显卡的中高端游戏笔记本，可能就已经足够完成这个工作了。 ---- 这里我介绍一下最近我在使用的第四种GPU来源：MistGPU MistGPU是一个共享AI计算平台，提供简单易用的AI计算服务。用户可以在上面使用GPU服务器训练AI模型，按时间计费。排除一些缺点，如果只考虑性价比的话，MistGPU真是现在GPU训练服务中最高的。这种将大量的GPU资源拆散成碎片再零售的方法，既保证了用户快速使用，也保证了成本相对低廉。
2.4K10编辑于 2022-03-30
来自专栏AILearning
使用GPU
在TensorFlow中，支持的设备类型是CPU和GPU。它们被表示为strings。例如： "/cpu:0"：机器的CPU "/gpu:0"你的机器的GPU，如果你有一个。 "/gpu:1"你的机器的第二个GPU等如果TensorFlow操作既具有CPU和GPU实现，则在将操作分配给设备时，GPU设备将被赋予优先级。例如， matmul具有CPU和GPU内核。在用设备的系统cpu:0和 gpu:0，gpu:0将选择运行matmul。允许GPU内存增长默认情况下，TensorFlow将几乎所有GPU的GPU内存映射 CUDA_VISIBLE_DEVICES到该进程的可见内容。如果要真正限制TensorFlow进程可用的GPU内存量，这是非常有用的。在多GPU系统上使用单个GPU 如果您的系统中有多个GPU，则默认情况下将选择具有最低ID的GPU。
2K50发布于 2017-12-29
GPU调度
题目描述为了充分发挥 GPU 算力，需要尽可能多的将任务交给 GPU 执行，现在有一个任务数组，数组元素表示在这1s内新增的任务个数，且每秒都有新增任务，假设 GPU 最多一次执行n个任务，一次执行耗时 1s，在保证 GPU 不空闲的情况下，最少需要多长时间执行完成。，我们需要编写一个 JavaScript 函数来计算 GPU 完成所有任务所需的最少时间。根据题目描述，我们可以按照以下步骤来解决这个问题：读取输入：获取 GPU 每次可以执行的最大任务数 n 和任务数组 tasks。计算总任务数：将任务数组中的所有元素相加，得到总任务数。计算所需时间：用总任务数除以 GPU 每次可以执行的最大任务数 n，并向上取整，得到所需的最少时间。
29300编辑于 2025-01-27
来自专栏虚拟化云计算
图解GPU
这是图解系列之GPU 关注阅读更多图解 ? 要说GPU就绕不开CPU。以前CPU要做所有的工作，但是后来发现有一类工作，它比较简单并且需要大量的重复性操作，各操作之间又没有关联性。于是CPU就找了一堆GPU来干这些大量重复性的简单工作。由于图形渲染任务具有高度的并行性，所以GPU一开始就是做图形渲染的工作。 ? GPU内部有数量众多的计算单元，每个计算单元内只有非常简单的控制逻辑。尽管每一个单元的计算能力不如CPU，但人多力量大呀。 CPU是顺序执行的： ? GPU是并行执行的： ? 下面我们看一下GPU的工作原理。 GPU的工作都是CPU安排的，包括图形渲染。 GPGPU其实是对GPU的一种优化，让GPU更加的具有易用性和通用型，GPU应用于AI就是GPU通用属性的一个方向，类似的方向有很多:挖矿、AI训练、HPC高性能计算等。
2.6K40发布于 2021-03-25
来自专栏bye漫漫求学路
不安装tensorflow-gpu如何使用GPU
这是个很严峻的问题，每次跑代码，内存就炸了，gpu还没开始用呢，看一些博客上是这样说的：方法一： import os os.environ["CUDA_VISIBLE_DEVICES"] = "2"# 方法二：卸载cpu版本的tensorflow，重新安装gpu版本的好不容易装上的，如果可以用其他的方法，那么我还是想试一下的。方法三：正在探讨中，找到了再补充在这个博客中还有一个很有意思的是，你怎么知道你的某个环境用的是cpu还是gpu：我引用一下，原文出自https://blog.csdn.net/weixin_37251044 K40c, pci bus id: 0000:05:00.0 b: /job:localhost/replica:0/task:0/device:GPU:0 a: /job:localhost/replica:0/task:0/device:GPU:0 MatMul: /job:localhost/replica:0/task:0/device:GPU
2.2K30发布于 2021-01-07
来自专栏方亮
浅析GPU计算——CPU和GPU的选择
目前市面上介绍GPU编程的博文很多，其中很多都是照章宣科，让人只能感受到冷冷的技术，而缺乏知识的温度。而GPU则可以被看成一个接受CPU调度的“拥有大量计算能力”的员工。为什么说GPU拥有大量计算能力。我们看一张NV GPU的架构图 ? 如果说cuda核心数不能代表GPU的算力。那我们再回到上图，可以发现这款GPU提供了640个Tensor核心，该核心提供了浮点运算能力。然而GPU对应的显存带宽则比CPU对应内存高出一个数量级！ ? 下节我们将结合cuda编程来讲解GPU计算相关知识。
2.9K20发布于 2019-01-16
来自专栏架构驿站
Dynamic GPU Fractions（动态 GPU 分配），知多少？
为了解决这一瓶颈，动态 GPU 分配（Dynamic GPU Fractions）技术便应运而生。 —01 —如何理解动态 GPU 分配（Dynamic GPU Fractions）？动态 GPU 分配代表了 GPU 资源管理理念的一次重大革新。传统的 GPU 资源管理方法通常采用静态分配模式，即每个工作负载在启动时被分配固定比例的 GPU 内存和计算能力。通常而言，动态 GPU 分配的核心机制是允许用户为每个工作负载指定两个关键参数： 1、GPU 分配比例（GPU Fraction）：即表示工作负载保证获得的最小 GPU 资源比例。 2、GPU 利用率上限（GPU Limit）：即表示工作负载最多可以使用的 GPU 资源比例。 4、平滑切换 GPU 资源归属动态 GPU 分配还支持灵活调整 GPU 资源的使用归属。
95310编辑于 2025-01-08
来自专栏防止网络攻击
【玩转 GPU】GPU加速的AI开发实践
一、GPU的数据匮乏Google、Microsoft以及世界各地其他组织最近的研究表明，GPU花费了高达70%的AI训练时间来等待数据。看看他们的数据管道，这应该不足为奇。图片如上图所示，在每个训练Epoch开始时，保存在大容量对象存储上的训练数据通常被移动到Lustre存储系统层，然后再次移动到GPU本地存储，用作GPU计算的暂存空间。 HK-WEKA将典型的GPU匮乏的“multi-hop”AI数据管道折叠成一个单一的、零拷贝的高性能AI数据平台—其中大容量对象存储与高速HK-WEKA存储“融合”在一起，共享同一命名空间，并由GPU通过如上图所示，HK-WEKA人工智能数据平台支持英伟达的GPUDirect存储协议，该协议绕过了GPU服务器的CPU和内存，使GPU能够直接与HK-WEKA存储进行通信，将吞吐量加速到尽可能快的性能。与 NVIDIA V100 GPU 上的 Tacotron 2 和 WaveGlow 模型相比，它使用非自回归模型在 NVIDIA A100 GPU 上提供 12 倍的性能提升。
1.6K00编辑于 2023-05-27
来自专栏韩曙亮的移动开发专栏
【Android RenderScript】RenderScript 简介 ① ( GPU 简介 | GPU 系统架构 )
文章目录一、GPU 简介二、GPU 系统架构 1、传统 GPU 系统架构 2、移动设备 GPU 系统架构使用 RenderScript 编写 Android 平台运行的高性能计算应用程序 ---- 图形处理器 , 英文名称为 Graphics Processing Unit , 简称 GPU , 又称为显示芯片 , 显示核心 , 视觉处理器 , 可以等同理解为显卡的核心部件 ; GPU Computing , 简称 HPC ; HPC 极大地刺激了 GPU 计算的增长 ; 大部分的平板电脑和手机设备都提供了可编程的 GPU ; 二、GPU 系统架构 ---- 1、传统 GPU 系统架构传统的带 GPU 的服务器架构 : GPU 架构的计算吞吐量 , 内存 , 带宽 , 远高于 CPU 架构 ; 高端 GPU 的浮点运算性能是 CPU 的十几倍 ; PCI 总线的吞吐量有限 , GPU 与 CPU 之间的数据交互需要通过 PCI 总线进行 , 如果将计算数据从 CPU 传输到 GPU , 然后再进行计算 , 该过程很耗时 , 这样会造成性能浪费 ; 2、移动设备 GPU
2.7K10编辑于 2023-03-30
来自专栏DevOps
GPU：腾讯云GPU云服务器简介
简介腾讯云GPU云服务器有包年包月和按量计费两种计费模式，同时也支持时长折扣，时长折扣的比率和 CVM 云服务器可能不同，GPU 实例包括网络、存储（系统盘、数据盘）、计算（CPU 、内存、GPU GPU 实例。腾讯云GPU云服务器最新活动信息目前腾讯云有GPU云服务器特惠活动，优惠覆盖按量计费及包年包月， GPU云服务器特惠：www.tengxunyun8.com/url/gputh.html 具体优惠内容如下： 1、按量计费最新优惠 GN7vw 机型：NVIDIA T4 GPU，0.49元/时起； GN7 机型：NVIDIA T4 GPU，0.73元/时起； GN6S 机型：NVIDIA P4 GPU，1.44 回收说明 GPU 实例回收，与云服务器 CVM 回收机制一致。欠费说明 GPU 实例欠费，与云服务器 CVM 欠费处理方式一致。退费说明 GPU 实例退费，与云服务器 CVM 退费规则一致。
17.5K10编辑于 2024-03-29

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

大模型训练—Nvidia GPU 互联技术全景图

互联网十万个为什么之什么是GPU？

Intel开放互联接口OFI(libfabric)入门教程 rdma verbs gpu ai dma network HOTI 互联 HPC panda 博士

虚拟GPU_vmware gpu

【玩转 GPU】英伟达GPU架构演变

使用 Elastic GPU 管理 Kubernetes GPU 资源

奔涌吧，GPU! GPU选型全解密

GPU渲染之OpenGL的GPU管线

gpu使用

GPU accelerated

GPU在哪？

使用GPU

GPU调度

图解GPU

不安装tensorflow-gpu如何使用GPU

浅析GPU计算——CPU和GPU的选择

Dynamic GPU Fractions（动态 GPU 分配），知多少？

【玩转 GPU】GPU加速的AI开发实践

【Android RenderScript】RenderScript 简介 ① ( GPU 简介 | GPU 系统架构 )

GPU：腾讯云GPU云服务器简介

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐