首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI前沿技术

    大模型训练—Nvidia GPU 互联技术全景图

    PCIe 版本 传输速率 单通道(x1)带宽 双通道(x2)带宽 四通道(x4)带宽 八通道(x8)带宽 十六通道(x16)带宽 3.0 8 GT/s 0.98 GB/s 1.97 GB/s 3.94 NVLink 解决了单节点小规模计算设备之间的高效通信,比如8GPU之间通过混合立方网格拓扑结构相连,保证了每两两个GPU之间的传输效率是一致的。 NVSwitch作为节点交换架构,支持单节点中16个GPU互联,并且支持8GPU同时通信。 全互联拓扑:NVSwitch 支持全互联拓扑,每个 GPU 都可以直接与其他 GPU通信,避免了通信瓶颈。 例如,在训练千亿参数模型时,节点内8GPU 使用 NVLink P2P同步梯度;节点间通过 RDMA将聚合后的梯度广播到其他服务器。

    76611编辑于 2026-01-13
  • 来自专栏Edward的专栏

    CV -- YOLOv8 图像分割(GPU环境)

    运行成功后会帮您创建 Yolov8 训练所需的文件格式,并且将 txt文件放入正确的位置: 训练 训练环境使用的GPU,需要配置的可以看我前文: CV -- 基于GPU版显卡CUDA环境+Pycharm ('D:\OneDrive\桌面\yolov8-segment\weights\yolov8n-seg.pt') model.train(data='D:\OneDrive\桌面\yolov8-segment imgsz=640, #输入图片尺寸(会转换为该尺寸) batch=4, #每次训练的批量 device='cuda:0', #使用GPU 训练 workers=0 #windows GPU训练需加上该参数,否则会报错 ) print("训练结束!") for i, result in enumerate(results): for j, mask in enumerate(result.masks.data): # 将mask从GPU

    1.1K13编辑于 2025-02-20
  • 来自专栏小陈运维

    在Kubernetes(k8s)中使用GPU

    在Kubernetes(k8s)中使用GPU 介绍 Kubernetes 支持对节点上的 AMD 和 NVIDIA GPU (图形处理单元)进行管理,目前处于实验状态。 docker.mirrors.ustc.edu.cn", "http://hub-mirror.c.163.com" ], "insecure-registries": ["127.0.0.1/8" :1.5.0-devel-gpu root@hello:~# docker load -i tensorflow-gpu.tar 复制代码 创建tensorflow测试pod root@hello:~# vim gpu-test.yaml root@hello:~# cat gpu-test.yaml apiVersion: v1 kind: Pod metadata: name: test-gpu pod/test-gpu created root@hello:~# 复制代码 查看日志 root@hello:~# kubectl logs test-gpu WARNING:tensorflow:

    2.7K50编辑于 2021-12-10
  • 来自专栏SRE云原生实践之路

    互联网十万个为什么之什么是GPU

    此外,GPU的并行计算能力也使其在科学模拟、数据分析、深度学习和机器学习等领域变得日益重要,为这些领域提供了前所未有的速度和效率。 GPU是如何演变的? 科学计算与模拟 科学领域的研究人员依靠GPU处理大规模模拟和计算密集型任务。在物理学、生物学等学科中,GPU被用于模拟实验和分析数据。 对于依赖复杂算法的分布式应用,GPU可以在后端提供必要的计算资源,以支持高性能和实时数据处理需求。 GPU的工作原理是什么? GPU的并行架构 GPU的核心特点是其并行结构。一个GPU由成百上千个小型、高效的核心组成,这些核心分组成多个流处理器。这些核心在处理图形任务时非常高效,比如渲染像素或进行复杂的几何计算。 内存和带宽 GPU有自己的专用内存,通常称为显存或VRAM。这种内存具有非常高的带宽,使得GPU能够快速地处理大量数据,这对于图形渲染和其他内存密集型任务至关重要。 GPU和CPU有什么区别?

    1.5K10编辑于 2024-09-06
  • 来自专栏架构驿站

    GPU 资源调度:k8s-device-plugin 知多少 ?

    Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 基于 k8s-device-plugin 机制所实现的 GPU 资源动态调度。 : cuda-container image: nvcr.io/nvidia/k8s/cuda-sample:vectoradd-cuda10.2 resources: spec: restartPolicy: OnFailure containers: - name: cuda-vector-add image: "k8s.gcr.io 例如,当一个节点上挂载了多块显存不同的 GPU(如 8GB 和 12GB),某些应用希望使用显存大于 10GB 的 GPU,这种需求无法通过节点标签和选择器实现。 Happy Coding ~ Reference : [1] https://github.com/NVIDIA/k8s-device-plugin [2] https://aws.amazon.com

    2.1K20编辑于 2024-12-09
  • 来自专栏代码编写世界

    Unity3D学习笔记8——GPU实例化(3)

    概述 在前两篇文章《Unity3D学习笔记6——GPU实例化(1)》《Unity3D学习笔记6——GPU实例化(2)》分别介绍了通过简单的顶点着色器+片元着色器,以及通过表面着色器实现GPU实例化的过程 而在Unity的官方文档Creating shaders that support GPU instancing里,也提供了一个GPU实例化的案例,这里就详细论述一下。 2. 详论 2.1. 照例,还是编写一个脚本挂到一个空的GameObject对象上: using UnityEngine; public class Note8Main : MonoBehaviour { public 修改上面的脚本: using UnityEngine; public class Note8Main : MonoBehaviour { public Mesh mesh; public 参考 《Unity3D学习笔记6——GPU实例化(1)》 《Unity3D学习笔记6——GPU实例化(2)》 Creating shaders that support GPU instancing MaterialPropertyBlock

    1.7K10编辑于 2022-07-12
  • 来自专栏亨利笔记

    使用Bitfusion在K8s上共享GPU资源

    https://docs.vmware.com/en/VMware-vSphere-Bitfusion/2.5/Install-Guide/GUID-361A9C59-BB22-4BF0-9B05-8E80DE70BE5B.html inception3' on 1 GPUs, with the following servers: [INFO] 2021-03-27T04:26:42Z 192.168.1.100 55001 ab4a56d5-8df4 2394455000 Hz 2021-03-27 04:26:48.174378: I tensorflow/compiler/xla/service/service.cc:168] XLA service 0x4c8ad60 plugin,需要安装 CFSSL,同时需要修改 bitfusion-with-kubernetes-integration-main/bitfusion_device_plugin/Makefile文件中的K8S_PLATFORM K8S_PLATFORM ?

    2.2K30发布于 2021-08-05
  • 来自专栏daos

    Intel开放互联接口OFI(libfabric)入门教程 rdma verbs gpu ai dma network HOTI 互联 HPC panda 博士

    , 分布式存储, 网络, rdma等技术HOTI 热门互联网络技术 视频链接: https://www.youtube.com/watch? gpu通信示例, 支持intel gpu, dpu, 或者其他供应商架构与四种服务图片控制类: 发现底层设备, 属性, 能力等通信接口: 建立连接, 初始资源等数据传输: 发送和接收数据完成服务: 报告发送或接收状态 /fi-rdmabw-xe -m device #使用GPU设备的内存客户端: . libfabric 代码相对位置: fabtests/component/dmabuf-rdma/fi-rdmabw-xe.c更多libfabric参考链接信息图片END, 谢谢图片附录HOTI 热门互联网络技术第 ----2023 年 MVAPICH 用户组 (MUG) 会议 将于 2023 年 8 月 21 日至 23 日以混合方式举行。更多详细信息请参见 此处。

    2.4K41编辑于 2023-10-02
  • 来自专栏全栈程序员必看

    虚拟GPU_vmware gpu

    第三章 浅谈GPU虚拟化技术(三)GPU SRIOV及vGPU调度 GPU SRIOV原理 谈起GPU SRIOV那么这个世界上就只有两款产品:S7150和MI25。 VF调度 AMD GPU SRIOV从硬件的角度看就是一个对GPU资源的分时复用的过程。因此其运行方式也是与GPU分片虚拟化类似。SRIOV的调度信息后续重点介绍。 GPU SRIOV的调度系统 分时复用 VF的调度是GPU虚拟化中的重点,涉及到如何服务VM,和如何确保GPU资源的公平分片。 GPU SRIOV也是一个分时复用的策略。 GPU分时复用与CPU在进程间的分时复用是一样的概念。一个简单的调度就是把一个GPU的时间按照特定时间段分片,每个VM拿到特定的时间片。在这些时间片段中,这个VM享用GPU的硬件的全部资源。 不知不觉把GPU虚拟化的调度都在这章里讨论过了。很好,专门介绍GPU调度的章节可以省下来了 。 版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。

    3.7K31编辑于 2022-11-16
  • 来自专栏Edward的专栏

    CV -- 基于GPU版显卡CUDA环境+Pycharm YOLOv8 检测

    pwd=knvg#list/path=%2Fsharelink3901291660-1103934630550953%2FYOLOv8%2FYOLO-GPU%E7%89%88%E4%B8%93%E7%94% A8%E5%8C%85&parentPath=%2Fsharelink3901291660-1103934630550953 实在不行可以直接用上面百度网盘或者我资源里的,将那三个文件放在某个地方( main() 运行成功结果: 可以看到使用 GPU 训练仅仅用了 0.419 小时,比之前使用 CPU 训练要快得多。 训练完模型后运用,结果如下(因为训练集很少,预测不准确,仅供参考): yolo8汽车检测 本文参考: 【YOLO】YOLOv8 GPU版显卡CUDA环境安装与配置 - Powered by Discuz 【yolov8基础教程】Yolov8模型训练GPU环境配置保姆级教程(附安装包)-CSDN博客 YOLOV8从环境部署(GPU版本)到模型训练——专为小白设计一看就懂_ultralytics压缩包-CSDN

    1.8K10编辑于 2025-02-18
  • 来自专栏OpenCV与AI深度学习

    实战 | 本地GPU训练YOLOv8带方向的目标检测

    在本文中,我们将学习如何使用 YOLOv8 进行有向物体检测。 在本例中,我使用了 yolov8x-obb.pt。 为了使用 YOLOV8 训练模型,我们需要一个 .yml 文件。 运行之前,如果您有 GPU 并且想要使用 GPU 来运行训练,请按照以下额外步骤操作。首先,卸载 torch 和作为 ultralytics 的一部分下载的 torchvision。 - Use the device=0 for Single GPU Training.

    2.8K10编辑于 2024-06-21
  • 来自专栏YOLO大作战

    Yolov8 Seg分割 C++ GPU部署:ONNXRuntime cuda部署

    的官方网站:https://onnx.ai/ONXX的GitHub地址:https://github.com/onnx/onnx 1.2 Tensorrt介绍 C++ 库,用于加速 NVIDIA 的 GPU :Tensorrt 优点:在GPU上推理速度是最快的;缺点:不同显卡cuda版本可能存在不适用情况;ONNX Runtime优点:通用性好,速度较快,适合各个平台复制;​2.Yolov8 seg ONNX /yolov8onnxruntime/model/yolov8n.onnx";std::string model_path_seg = "D:/DL/AIDeploy/YOLOv8-Deploy/yolov8onnxruntime ();//Yolov8task_detect_ocv;//Yolov8Onnxtask_detect_ort;//yolov8_onnx(task_detect_ort, img, model_path_detect ); //yoolov8 onnxruntime detectyolov8_onnx(task_segment_ort, img, model_path_seg); //yolov8 onnxruntime

    2.7K10编辑于 2024-08-13
  • 来自专栏计算机视觉战队

    650亿参数,8块RTX 3090 GPU就能全参数微调

    在 LLM 模型调优过程中通常又需要昂贵的 GPU 资源,例如 8×80GB 的 GPU 设备,这使得小型实验室和公司很难参与这一领域的研究。 该研究评估了 LOMO 的内存和吞吐量性能,表明借助 LOMO,研究者在 8 个 RTX 3090 GPU 上就可以训练 65B 参数的模型。 至于 13B 模型,由于内存的限制,它无法在现有的 8 个 RTX 3090 GPU 上用 AdamW 训练。 此外,在训练 30B 模型时,SGD 在 8 个 RTX 3090 GPU 上遇到了内存不足(OOM)的问题,而 LOMO 在只有 4 个 GPU 的情况下表现良好。 最后,研究者使用 8 个 RTX 3090 GPU 成功训练了 65B 模型,实现了 4.93 TGS 的吞吐量。

    98620编辑于 2023-08-24
  • 来自专栏陈树义

    8互联网产品的用户体验设计(UED)

    1、学习理解互联网产品用户体验设计(UED)相关知识 – 什么是UED – UED具体包含什么内容 – 普通产品团队的UED工作流程是什么样子的 – UED团队是怎么分工的 – 每个UED的职能 – UED是针对用户心灵,眼睛,耳朵,触感的设计 – 用户体验就是用户在使用一款互联网产品的整体感受度 3、关于UED的一些概念 UE:User Experience UCD:User-Centered 4、互联网产品的UED流程 产品策划 -> 产品交互设计 -> 产品视觉设计 -> 产品页面重构 -> 产品研发 -> 产品测试 -> 产品发布 ? 输出物 • 静态网页 • 静态页面规范说明(CSS,复用,性能,兼容性等) - 配合工作 • 页面测试工作,测试页面还原度 • 兼容性测试 - 职责 • 面呈现,美观度,体验,品牌形象设计负责 7、互联网产品的用户体验分类

    3.3K92发布于 2018-04-13
  • 来自专栏FreeBuf

    手把手教你构建8GPU的破密码机

    GPU:八块EVGA gtx1080 FE显卡(也就是我们所说的公版卡) ? 软件 1. Tyan机箱为你的GPU提供了专门的螺丝固定位置; 3. 这款主板似乎没有硬件RAID; 4. 主板BIOS无需进行任何修改和更新,主板已经默认更新至了2017年1月份的版本; 5. 在选择安装的软件时,勾选“OpenSSH Server”; 操作系统安装完成之后,让系统搜索所有可用的GPU: lspci | grep VGA 更新驱动程序并安装hashcat以及相应的依赖环境: sudo

    2.4K60发布于 2018-02-23
  • 来自专栏Java项目实战

    【玩转 GPU】英伟达GPU架构演变

    图片一、GPU架构发展历史 1999年,英伟达发布第一代GPU架构GeForce 256,标志着GPU时代的开始。 九、Ampere架构 2020年,英伟达发布Ampere架构,采用Samsung 8nm制程。 图片Part One: 介绍与概述互联网的发展速度越来越快,对于计算机的运行速度和计算能力提出了更高的要求。因此,GPU作为一种专门用于图形处理和运算的显卡,成为了性能升级的关键部分。 本文将从互联网专家的角度出发,详细介绍英伟达显卡的运行原理、结构组成、各组件的介绍、应用技术、多模态构成及GPU运行原理等内容。 Part Eight: 结论本文通过从互联网专家的角度出发,详细介绍了英伟达显卡的运行原理、结构组成、各组件的介绍、应用技术、多模态构成及GPU运行原理等内容。

    14K50编辑于 2023-06-08
  • 来自专栏腾讯云原生团队

    使用 Elastic GPU 管理 Kubernetes GPU 资源

    nvidia.com/gpu: 8的形式注册到节点中。 但应用在 GPU 场景,还是存在以下不足: 集群 GPU 资源缺少全局视角。没有直观方式可获取集群层面 GPU 信息,比如 Pod / 容器与 GPU 卡绑定关系、已使用 GPU 卡数等。 由于 GPU 卡相对昂贵,并且某些 AI 负载吃不满单张 GPU 算力,GPU Sharing 技术应运而生。 对 GPU 成本的关注,对 GPU 资源的整体把控,对 GPU 不同后端的精准使用,都成为了客户能用好 GPU 算力的前提条件。 ,可以是一块本地 GPU 物理卡、一个 GPU 切片资源( GPU 算力 / 显存 的组合)、一个远端 GPU 设备。

    4K60编辑于 2022-04-21
  • 来自专栏腾讯云服务器团队的专栏

    奔涌吧,GPU! GPU选型全解密

    GN10X/GN10Xp、GN8、GN7等整卡实例均采用GPU直通技术; vGPU是指虚拟化GPU,支持GPU资源的更细粒度划分,如1/2、1/4以及1/8 GPU。 8.1TFLOPS 单精度浮点计算 ·        130INT8 TOPS ·        260INT4 TOPS GPU被广泛应用到图形图形处理、视频编解码、深度学习训练/推理、科学计算等场景下 对GN10Xp(8卡V100)和GN88卡P40)实例进行Resnet50模型训练场景测试,测试结果表明,GN10Xp实例在ImageClassification上的训练时长比GN8缩短了14.7%。 云游业务架构图 目前腾讯云Paas云游使用的云游戏解决方案是视频(或像素)流传输,游戏在云端服务器中存储、执行和呈现,并由云端服务器将游戏场景渲染为视频音频流,通过互联网流式传输到消费者的游戏终端。 (渲染型) 4 16 1/4*T4 4 小型游戏 8 32 1/2*T4 8 中型游戏 16 64 1*T4 16

    20.6K2624发布于 2020-07-16
  • 国产GPU新突破,单卡FP8算力突破1000T!

    虽然国产GPU厂商摩尔线程在两年前就推出了专门面向大模型训练、推理及高性能计算设计的全功能GPU智算卡MTT S5000,但是具体的架构、参数和性能一直并未对外公布。 这一数据标志着国产GPU在单卡吞吐量上已可与国际主流一较高下。 ●计算精度: 该卡实现了从 FP8、BF16、FP16到FP32、FP64 的全精度计算支持。 ●互联带宽: 卡间互联带宽达到 784GB/s,支持万卡规模的高效协同,极大提升了分布式训练的效率。 作为国内首批原生支持 FP8精度 的训练GPU,S5000内置了硬件级FP8 Tensor Core加速单元。 三、 性能实测:高精度训练对标H100 在典型任务实测中,S5000的参数优势转化成为显著的效率: ●对比H20:在互联网厂商的端到端任务测试中,S5000的综合性能表现约为英伟达H20的 2.5倍。

    40410编辑于 2026-03-19
  • 来自专栏人人都是极客

    GPU渲染之OpenGL的GPU管线

    GPU渲染流水线,是硬件真正体现渲染概念的操作过程,也是最终将图元画到2D屏幕上的阶段。 GPU管线涵盖了渲染流程的几何阶段和光栅化阶段,但对开发者而言,只有对顶点和片段着色器有可编程控制权,其他一律不可编程。如下图: ? 简单总结GPU管线,这阶段中主要是对图元进行操作。 正因这独立性,GPU可以并行化处理每一个顶点,提高处理速度。 顶点着色器最重要的功能是执行顶点的坐标变换和逐顶点光照。 这样设计的好处是能减少一些不必要的绘制,并减少对GPU的浪费。 回到正题,片段着色器同上述的顶点着色器,只是它作用的对象是每一片段,对其进行着色贴图。 推荐阅读: GPU的工作原理 两段小视频轻松理解CPU & GPU的工作原理 GPU内存分级

    3.8K32发布于 2018-07-26
领券