搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI前沿技术
大模型训练—Nvidia GPU 互联技术全景图
PCIe 版本传输速率单通道（x1）带宽双通道（x2）带宽四通道（x4）带宽八通道（x8）带宽十六通道（x16）带宽 3.0 8 GT/s 0.98 GB/s 1.97 GB/s 3.94 NVLink 解决了单节点小规模计算设备之间的高效通信，比如8个GPU之间通过混合立方网格拓扑结构相连，保证了每两两个GPU之间的传输效率是一致的。 NVSwitch作为节点交换架构，支持单节点中16个GPU全互联，并且支持8对GPU同时通信。全互联拓扑：NVSwitch 支持全互联拓扑，每个 GPU 都可以直接与其他 GPU通信，避免了通信瓶颈。例如，在训练千亿参数模型时，节点内8个GPU 使用 NVLink P2P同步梯度；节点间通过 RDMA将聚合后的梯度广播到其他服务器。
76611编辑于 2026-01-13
来自专栏Edward的专栏
CV -- YOLOv8 图像分割（GPU环境）
运行成功后会帮您创建 Yolov8 训练所需的文件格式，并且将 txt文件放入正确的位置：训练训练环境使用的GPU，需要配置的可以看我前文： CV -- 基于GPU版显卡CUDA环境+Pycharm ('D:\OneDrive\桌面\yolov8-segment\weights\yolov8n-seg.pt') model.train(data='D:\OneDrive\桌面\yolov8-segment imgsz=640, #输入图片尺寸（会转换为该尺寸） batch=4, #每次训练的批量 device='cuda:0', #使用GPU 训练 workers=0 #windows GPU训练需加上该参数，否则会报错 ) print("训练结束！") for i, result in enumerate(results): for j, mask in enumerate(result.masks.data): # 将mask从GPU
1.1K13编辑于 2025-02-20
来自专栏小陈运维
在Kubernetes（k8s）中使用GPU
在Kubernetes（k8s）中使用GPU 介绍 Kubernetes 支持对节点上的 AMD 和 NVIDIA GPU （图形处理单元）进行管理，目前处于实验状态。 docker.mirrors.ustc.edu.cn", "http://hub-mirror.c.163.com" ], "insecure-registries": ["127.0.0.1/8" :1.5.0-devel-gpu root@hello:~# docker load -i tensorflow-gpu.tar 复制代码创建tensorflow测试pod root@hello:~# vim gpu-test.yaml root@hello:~# cat gpu-test.yaml apiVersion: v1 kind: Pod metadata: name: test-gpu pod/test-gpu created root@hello:~# 复制代码查看日志 root@hello:~# kubectl logs test-gpu WARNING:tensorflow:
2.7K50编辑于 2021-12-10
来自专栏SRE云原生实践之路
互联网十万个为什么之什么是GPU？
此外，GPU的并行计算能力也使其在科学模拟、数据分析、深度学习和机器学习等领域变得日益重要，为这些领域提供了前所未有的速度和效率。 GPU是如何演变的？科学计算与模拟科学领域的研究人员依靠GPU处理大规模模拟和计算密集型任务。在物理学、生物学等学科中，GPU被用于模拟实验和分析数据。对于依赖复杂算法的分布式应用，GPU可以在后端提供必要的计算资源，以支持高性能和实时数据处理需求。 GPU的工作原理是什么？ GPU的并行架构 GPU的核心特点是其并行结构。一个GPU由成百上千个小型、高效的核心组成，这些核心分组成多个流处理器。这些核心在处理图形任务时非常高效，比如渲染像素或进行复杂的几何计算。内存和带宽 GPU有自己的专用内存，通常称为显存或VRAM。这种内存具有非常高的带宽，使得GPU能够快速地处理大量数据，这对于图形渲染和其他内存密集型任务至关重要。 GPU和CPU有什么区别？
1.5K10编辑于 2024-09-06
来自专栏架构驿站
GPU 资源调度：k8s-device-plugin 知多少？
Hello folks，我是 Luga，今天我们来聊一下人工智能应用场景 - 基于 k8s-device-plugin 机制所实现的 GPU 资源动态调度。 : cuda-container image: nvcr.io/nvidia/k8s/cuda-sample:vectoradd-cuda10.2 resources: spec: restartPolicy: OnFailure containers: - name: cuda-vector-add image: "k8s.gcr.io 例如，当一个节点上挂载了多块显存不同的 GPU（如 8GB 和 12GB），某些应用希望使用显存大于 10GB 的 GPU，这种需求无法通过节点标签和选择器实现。 Happy Coding ~ Reference ： [1] https://github.com/NVIDIA/k8s-device-plugin [2] https://aws.amazon.com
2.1K20编辑于 2024-12-09
来自专栏代码编写世界
Unity3D学习笔记8——GPU实例化(3)
概述在前两篇文章《Unity3D学习笔记6——GPU实例化(1)》《Unity3D学习笔记6——GPU实例化(2)》分别介绍了通过简单的顶点着色器+片元着色器，以及通过表面着色器实现GPU实例化的过程而在Unity的官方文档Creating shaders that support GPU instancing里，也提供了一个GPU实例化的案例，这里就详细论述一下。 2. 详论 2.1. 照例，还是编写一个脚本挂到一个空的GameObject对象上： using UnityEngine; public class Note8Main : MonoBehaviour { public 修改上面的脚本： using UnityEngine; public class Note8Main : MonoBehaviour { public Mesh mesh; public 参考《Unity3D学习笔记6——GPU实例化(1)》《Unity3D学习笔记6——GPU实例化(2)》 Creating shaders that support GPU instancing MaterialPropertyBlock
1.7K10编辑于 2022-07-12
来自专栏亨利笔记
使用Bitfusion在K8s上共享GPU资源
https://docs.vmware.com/en/VMware-vSphere-Bitfusion/2.5/Install-Guide/GUID-361A9C59-BB22-4BF0-9B05-8E80DE70BE5B.html inception3' on 1 GPUs, with the following servers: [INFO] 2021-03-27T04:26:42Z 192.168.1.100 55001 ab4a56d5-8df4 2394455000 Hz 2021-03-27 04:26:48.174378: I tensorflow/compiler/xla/service/service.cc:168] XLA service 0x4c8ad60 plugin，需要安装 CFSSL，同时需要修改 bitfusion-with-kubernetes-integration-main/bitfusion_device_plugin/Makefile文件中的K8S_PLATFORM K8S_PLATFORM ?
2.2K30发布于 2021-08-05
来自专栏daos
Intel开放互联接口OFI(libfabric)入门教程 rdma verbs gpu ai dma network HOTI 互联 HPC panda 博士
, 分布式存储, 网络, rdma等技术HOTI 热门互联网络技术视频链接: https://www.youtube.com/watch? gpu通信示例, 支持intel gpu, dpu, 或者其他供应商架构与四种服务图片控制类: 发现底层设备, 属性, 能力等通信接口: 建立连接, 初始资源等数据传输: 发送和接收数据完成服务: 报告发送或接收状态 /fi-rdmabw-xe -m device #使用GPU设备的内存客户端: . libfabric 代码相对位置: fabtests/component/dmabuf-rdma/fi-rdmabw-xe.c更多libfabric参考链接信息图片END, 谢谢图片附录HOTI 热门互联网络技术第 ----2023 年 MVAPICH 用户组 (MUG) 会议将于 2023 年 8 月 21 日至 23 日以混合方式举行。更多详细信息请参见此处。
2.4K41编辑于 2023-10-02
来自专栏全栈程序员必看
虚拟GPU_vmware gpu
第三章浅谈GPU虚拟化技术（三）GPU SRIOV及vGPU调度 GPU SRIOV原理谈起GPU SRIOV那么这个世界上就只有两款产品：S7150和MI25。 VF调度 AMD GPU SRIOV从硬件的角度看就是一个对GPU资源的分时复用的过程。因此其运行方式也是与GPU分片虚拟化类似。SRIOV的调度信息后续重点介绍。 GPU SRIOV的调度系统分时复用 VF的调度是GPU虚拟化中的重点，涉及到如何服务VM，和如何确保GPU资源的公平分片。 GPU SRIOV也是一个分时复用的策略。 GPU分时复用与CPU在进程间的分时复用是一样的概念。一个简单的调度就是把一个GPU的时间按照特定时间段分片，每个VM拿到特定的时间片。在这些时间片段中，这个VM享用GPU的硬件的全部资源。不知不觉把GPU虚拟化的调度都在这章里讨论过了。很好，专门介绍GPU调度的章节可以省下来了。版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。
3.7K31编辑于 2022-11-16
来自专栏Edward的专栏
CV -- 基于GPU版显卡CUDA环境+Pycharm YOLOv8 检测
pwd=knvg#list/path=%2Fsharelink3901291660-1103934630550953%2FYOLOv8%2FYOLO-GPU%E7%89%88%E4%B8%93%E7%94% A8%E5%8C%85&parentPath=%2Fsharelink3901291660-1103934630550953 实在不行可以直接用上面百度网盘或者我资源里的，将那三个文件放在某个地方（ main() 运行成功结果：可以看到使用 GPU 训练仅仅用了 0.419 小时，比之前使用 CPU 训练要快得多。训练完模型后运用，结果如下（因为训练集很少，预测不准确，仅供参考）： yolo8汽车检测本文参考：【YOLO】YOLOv8 GPU版显卡CUDA环境安装与配置 - Powered by Discuz 【yolov8基础教程】Yolov8模型训练GPU环境配置保姆级教程（附安装包）-CSDN博客 YOLOV8从环境部署（GPU版本）到模型训练——专为小白设计一看就懂_ultralytics压缩包-CSDN
1.8K10编辑于 2025-02-18
来自专栏OpenCV与AI深度学习
实战 | 本地GPU训练YOLOv8带方向的目标检测
在本文中，我们将学习如何使用 YOLOv8 进行有向物体检测。在本例中，我使用了 yolov8x-obb.pt。为了使用 YOLOV8 训练模型，我们需要一个 .yml 文件。运行之前，如果您有 GPU 并且想要使用 GPU 来运行训练，请按照以下额外步骤操作。首先，卸载 torch 和作为 ultralytics 的一部分下载的 torchvision。 - Use the device=0 for Single GPU Training.
2.8K10编辑于 2024-06-21
来自专栏YOLO大作战
Yolov8 Seg分割 C++ GPU部署：ONNXRuntime cuda部署
的官方网站：https://onnx.ai/ONXX的GitHub地址：https://github.com/onnx/onnx 1.2 Tensorrt介绍 C++ 库，用于加速 NVIDIA 的 GPU ：Tensorrt 优点：在GPU上推理速度是最快的；缺点：不同显卡cuda版本可能存在不适用情况；ONNX Runtime优点：通用性好，速度较快，适合各个平台复制；2.Yolov8 seg ONNX /yolov8onnxruntime/model/yolov8n.onnx";std::string model_path_seg = "D:/DL/AIDeploy/YOLOv8-Deploy/yolov8onnxruntime ();//Yolov8task_detect_ocv;//Yolov8Onnxtask_detect_ort;//yolov8_onnx(task_detect_ort, img, model_path_detect ); //yoolov8 onnxruntime detectyolov8_onnx(task_segment_ort, img, model_path_seg); //yolov8 onnxruntime
2.7K10编辑于 2024-08-13
来自专栏计算机视觉战队
650亿参数，8块RTX 3090 GPU就能全参数微调
在 LLM 模型调优过程中通常又需要昂贵的 GPU 资源，例如 8×80GB 的 GPU 设备，这使得小型实验室和公司很难参与这一领域的研究。该研究评估了 LOMO 的内存和吞吐量性能，表明借助 LOMO，研究者在 8 个 RTX 3090 GPU 上就可以训练 65B 参数的模型。至于 13B 模型，由于内存的限制，它无法在现有的 8 个 RTX 3090 GPU 上用 AdamW 训练。此外，在训练 30B 模型时，SGD 在 8 个 RTX 3090 GPU 上遇到了内存不足（OOM）的问题，而 LOMO 在只有 4 个 GPU 的情况下表现良好。最后，研究者使用 8 个 RTX 3090 GPU 成功训练了 65B 模型，实现了 4.93 TGS 的吞吐量。
98620编辑于 2023-08-24
来自专栏陈树义
8、互联网产品的用户体验设计（UED）
1、学习理解互联网产品用户体验设计(UED)相关知识 – 什么是UED – UED具体包含什么内容 – 普通产品团队的UED工作流程是什么样子的 – UED团队是怎么分工的 – 每个UED的职能 – UED是针对用户心灵,眼睛,耳朵,触感的设计 – 用户体验就是用户在使用一款互联网产品的整体感受度 3、关于UED的一些概念 UE：User Experience UCD：User-Centered 4、互联网产品的UED流程产品策划 -> 产品交互设计 -> 产品视觉设计 -> 产品页面重构 -> 产品研发 -> 产品测试 -> 产品发布 ? 输出物 • 静态网页 • 静态页面规范说明(CSS,复用,性能,兼容性等) - 配合工作 • 页面测试工作，测试页面还原度 • 兼容性测试 - 职责 • 面呈现,美观度,体验,品牌形象设计负责 7、互联网产品的用户体验分类
3.3K92发布于 2018-04-13
来自专栏FreeBuf
手把手教你构建8个GPU的破密码机
GPU：八块EVGA gtx1080 FE显卡（也就是我们所说的公版卡） ? 软件 1. Tyan机箱为你的GPU提供了专门的螺丝固定位置； 3. 这款主板似乎没有硬件RAID； 4. 主板BIOS无需进行任何修改和更新，主板已经默认更新至了2017年1月份的版本； 5. 在选择安装的软件时，勾选“OpenSSH Server”；操作系统安装完成之后，让系统搜索所有可用的GPU： lspci | grep VGA 更新驱动程序并安装hashcat以及相应的依赖环境： sudo
2.4K60发布于 2018-02-23
来自专栏Java项目实战
【玩转 GPU】英伟达GPU架构演变
图片一、GPU架构发展历史 1999年,英伟达发布第一代GPU架构GeForce 256,标志着GPU时代的开始。九、Ampere架构 2020年,英伟达发布Ampere架构,采用Samsung 8nm制程。图片Part One：介绍与概述互联网的发展速度越来越快，对于计算机的运行速度和计算能力提出了更高的要求。因此，GPU作为一种专门用于图形处理和运算的显卡，成为了性能升级的关键部分。本文将从互联网专家的角度出发，详细介绍英伟达显卡的运行原理、结构组成、各组件的介绍、应用技术、多模态构成及GPU运行原理等内容。 Part Eight：结论本文通过从互联网专家的角度出发，详细介绍了英伟达显卡的运行原理、结构组成、各组件的介绍、应用技术、多模态构成及GPU运行原理等内容。
14K50编辑于 2023-06-08
来自专栏腾讯云原生团队
使用 Elastic GPU 管理 Kubernetes GPU 资源
nvidia.com/gpu: 8的形式注册到节点中。但应用在 GPU 场景，还是存在以下不足：集群 GPU 资源缺少全局视角。没有直观方式可获取集群层面 GPU 信息，比如 Pod / 容器与 GPU 卡绑定关系、已使用 GPU 卡数等。由于 GPU 卡相对昂贵，并且某些 AI 负载吃不满单张 GPU 算力，GPU Sharing 技术应运而生。对 GPU 成本的关注，对 GPU 资源的整体把控，对 GPU 不同后端的精准使用，都成为了客户能用好 GPU 算力的前提条件。，可以是一块本地 GPU 物理卡、一个 GPU 切片资源（ GPU 算力 / 显存的组合）、一个远端 GPU 设备。
4K60编辑于 2022-04-21
来自专栏腾讯云服务器团队的专栏
奔涌吧，GPU! GPU选型全解密
GN10X/GN10Xp、GN8、GN7等整卡实例均采用GPU直通技术； vGPU是指虚拟化GPU，支持GPU资源的更细粒度划分，如1/2、1/4以及1/8 GPU。 8.1TFLOPS 单精度浮点计算 · 130INT8 TOPS · 260INT4 TOPS GPU被广泛应用到图形图形处理、视频编解码、深度学习训练/推理、科学计算等场景下对GN10Xp（8卡V100）和GN8（8卡P40）实例进行Resnet50模型训练场景测试，测试结果表明，GN10Xp实例在ImageClassification上的训练时长比GN8缩短了14.7%。云游业务架构图目前腾讯云Paas云游使用的云游戏解决方案是视频（或像素）流传输，游戏在云端服务器中存储、执行和呈现，并由云端服务器将游戏场景渲染为视频音频流，通过互联网流式传输到消费者的游戏终端。（渲染型） 4 16 1/4*T4 4 小型游戏 8 32 1/2*T4 8 中型游戏 16 64 1*T4 16
20.6K2624发布于 2020-07-16
国产GPU新突破，单卡FP8算力突破1000T！
虽然国产GPU厂商摩尔线程在两年前就推出了专门面向大模型训练、推理及高性能计算设计的全功能GPU智算卡MTT S5000，但是具体的架构、参数和性能一直并未对外公布。这一数据标志着国产GPU在单卡吞吐量上已可与国际主流一较高下。 ●计算精度：该卡实现了从 FP8、BF16、FP16到FP32、FP64 的全精度计算支持。 ●互联带宽：卡间互联带宽达到 784GB/s，支持万卡规模的高效协同，极大提升了分布式训练的效率。作为国内首批原生支持 FP8精度的训练GPU，S5000内置了硬件级FP8 Tensor Core加速单元。三、性能实测：高精度训练对标H100 在典型任务实测中，S5000的参数优势转化成为显著的效率： ●对比H20：在互联网厂商的端到端任务测试中，S5000的综合性能表现约为英伟达H20的 2.5倍。
40410编辑于 2026-03-19
来自专栏人人都是极客
GPU渲染之OpenGL的GPU管线
GPU渲染流水线，是硬件真正体现渲染概念的操作过程，也是最终将图元画到2D屏幕上的阶段。 GPU管线涵盖了渲染流程的几何阶段和光栅化阶段，但对开发者而言，只有对顶点和片段着色器有可编程控制权，其他一律不可编程。如下图： ? 简单总结GPU管线，这阶段中主要是对图元进行操作。正因这独立性，GPU可以并行化处理每一个顶点，提高处理速度。顶点着色器最重要的功能是执行顶点的坐标变换和逐顶点光照。这样设计的好处是能减少一些不必要的绘制，并减少对GPU的浪费。回到正题，片段着色器同上述的顶点着色器，只是它作用的对象是每一片段，对其进行着色贴图。推荐阅读： GPU的工作原理两段小视频轻松理解CPU & GPU的工作原理 GPU内存分级
3.8K32发布于 2018-07-26

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

大模型训练—Nvidia GPU 互联技术全景图

CV -- YOLOv8 图像分割（GPU环境）

在Kubernetes（k8s）中使用GPU

互联网十万个为什么之什么是GPU？

GPU 资源调度：k8s-device-plugin 知多少？

Unity3D学习笔记8——GPU实例化(3)

使用Bitfusion在K8s上共享GPU资源

Intel开放互联接口OFI(libfabric)入门教程 rdma verbs gpu ai dma network HOTI 互联 HPC panda 博士

虚拟GPU_vmware gpu

CV -- 基于GPU版显卡CUDA环境+Pycharm YOLOv8 检测

实战 | 本地GPU训练YOLOv8带方向的目标检测

Yolov8 Seg分割 C++ GPU部署：ONNXRuntime cuda部署

650亿参数，8块RTX 3090 GPU就能全参数微调

8、互联网产品的用户体验设计（UED）

手把手教你构建8个GPU的破密码机

【玩转 GPU】英伟达GPU架构演变

使用 Elastic GPU 管理 Kubernetes GPU 资源

奔涌吧，GPU! GPU选型全解密

国产GPU新突破，单卡FP8算力突破1000T！

GPU渲染之OpenGL的GPU管线

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

大模型训练—Nvidia GPU 互联技术全景图

CV -- YOLOv8 图像分割（GPU环境）

在Kubernetes（k8s）中使用GPU

互联网十万个为什么之什么是GPU？

GPU 资源调度：k8s-device-plugin 知多少 ？

Unity3D学习笔记8——GPU实例化(3)

使用Bitfusion在K8s上共享GPU资源

Intel开放互联接口OFI(libfabric)入门教程 rdma verbs gpu ai dma network HOTI 互联 HPC panda 博士

虚拟GPU_vmware gpu

CV -- 基于GPU版显卡CUDA环境+Pycharm YOLOv8 检测

实战 | 本地GPU训练YOLOv8带方向的目标检测

Yolov8 Seg分割 C++ GPU部署：ONNXRuntime cuda部署

650亿参数，8块RTX 3090 GPU就能全参数微调

8、互联网产品的用户体验设计（UED）

手把手教你构建8个GPU的破密码机

【玩转 GPU】英伟达GPU架构演变

使用 Elastic GPU 管理 Kubernetes GPU 资源

奔涌吧，GPU! GPU选型全解密

国产GPU新突破，单卡FP8算力突破1000T！

GPU渲染之OpenGL的GPU管线

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

GPU 资源调度：k8s-device-plugin 知多少？