搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏计算机视觉
为什么大模型训练需要GPU，以及适合训练大模型的GPU介绍
文章目录前言 1、为什么大模型训练需要GPU，而非CPU 2、现在都有哪些合适的GPU适合训练，价格如何前言今天偶然看到一篇关于介绍GPU的推文，我们在复现代码以及模型训练过程中，GPU的使用是必不可少的，那么大模型训练需要的是GPU，而不是CPU呢。 1、为什么大模型训练需要GPU，而非CPU 总的来说，选择GPU而非CPU进行大模型训练的主要原因是因为GPU在并行处理能力、高吞吐量和针对机器学习任务的优化方面的优势。下面介绍几款常用的GPU： A100：非常适合大规模并行计算任务和大模型训练，现在用的最多的卡之一，性价比高，1.5w美元左右，但是溢价严重，人民币价格区间10w~20w，运气好的话10w左右可以拿下。 4090：最后再来说一下4090显卡，4090显卡训练大模型不行，因为大模型训练需要高性能的通信，但4090的通信效率太低，但是进行推理可以。价格一般在2w左右。
6.3K11编辑于 2024-04-25
来自专栏芯智讯
谷歌Tensor G3解析：9核CPU＋10核GPU，支持本地AI大模型！
9核CPU：性能相比上代提升超20% 根据Geekbench数据库曝光的谷歌Pixel 8 Pro所搭载的Tensor G3处理器的信息显示，其基于9核CPU架构，包括1个Cortex-X3超大核，主频 3.00GHz；4个Cortex-A715大核，主频2.45GHz；4个Cortex-A510小核，主频2.15GHz。 10核Mali-G715 GPU：性能稳定性偏低 Tensor G3的GPU采用的是10核心的Arm Mali-G715 GPU，它可以与苹果A17 Pro一样支持硬件级的光线追踪加速能力。支持本地运行AI大模型早在2018年7月，谷歌就正式推出了用于边缘计算的edge TPU，作为其Cloud TPU的补充，当时Edge TPU仅用于推理，专为在边缘运行TensorFlow Lite ML模型而设计。
5.1K50编辑于 2023-10-07
来自专栏AI分享
GPU实战：低成本运行多模态大模型
随着多模态大模型（如视觉-语言模型、文本-音频生成模型等）的快速发展，企业对高效、低成本的算力需求日益迫切。无服务器 GPU 服务结合其弹性扩展和按需付费的特性，为开发者提供了部署多模态大模型的理想平台。本文将从实战角度，探讨如何基于无服务器 GPU 基础设施，低成本运行多模态大模型。推荐使用NCv3系列虚拟机（建议选择Standard_NC6s_v3型号，搭载NVIDIA Tesla V100 GPU），该配置在计算性能与成本效益间取得平衡，特别适合大模型推理场景。技术，对梯度张量实施Snappy实时压缩（压缩比1:3）实测效果：LLaMA-13B模型显存占用从26GB降至6.2GB，推理速度保持原始性能的92%9。无服务器 GPU 通过弹性资源、精细化成本控制和多模态工具链，为开发者提供了高效运行大模型的解决方案。
4.5K11编辑于 2025-04-14
来自专栏计算机视觉CV
【玩转 GPU】本地部署大模型--chatGLM（尝鲜篇）
本文主要介绍ChatGLM-6B 的本地部署，提供更保姆级别的教程，让完全不懂技术的同学，也能在本地部署大模型～在19年曾经尝试过使用GPT2进行代码补全，当时就被大模型效果惊艳到啊，只是没想到短短3年多，大模型效果提升这么快。学不完，根本学不完....大模型实在太火了，终于还是忍不住对它下手。今天介绍如何在本地部署大模型尝鲜，后面有时间会持续出大模型技术原理篇。 1 大语言模型LLM大语言模型（Large Language Model），是一种人工智能模型，旨在理解和生成人类语言。但是现在有很多开发者，对自研的大模型进行开源，更好支持中文，更友好的部署环境。比如ChatGLM-6B。
27.5K289编辑于 2023-06-03
来自专栏TechLead
为大模型提供服务需要多少 GPU 显存？
在几乎所有的 LLM 面试中，有一个问题总是会被提及：“为大模型提供服务需要多少 GPU 显存？” 当你使用 GPT、LLaMA 或任何其他 LLM 时，了解如何估算所需的 GPU 内存是至关重要的。无论你是在处理一个 70 亿参数的模型，还是更大的模型，正确地配置硬件以支持这些模型至关重要。让我们深入探讨一下数学计算，这将帮助你估算有效部署这些模型所需的 GPU 内存。估算 GPU 内存的公式要估算为大型语言模型提供服务所需的 GPU 内存，可以使用以下公式： M 是 GPU 显存，以 GB（千兆字节）为单位。 P 是模型的参数数量。例如，单个具有 80 GB 内存的 NVIDIA A100 GPU 不足以为该模型提供服务。你至少需要两个具有 80 GB 内存的 A100 GPU，才能有效地处理内存负载。
1.7K11编辑于 2024-09-20
来自专栏ReganYue's Blog
【玩转 GPU】初探大模型、Stable Diffusion所需GPU配置（根据需求提供不同选择）
初探大模型、Stable Diffusion所需GPU配置（根据需求提供不同选择）部署Falcon-40B、MPT-30B 和 Stable Diffusion 应该使用哪些 GPU 方案？本文将对每一种模型部署所需GPU提供多种方案——性能型、均衡型、经济型。通过阅读本文，就不必研究市面上所有型号的GPU，并测试判断下面这几种模型能否在选择的GPU上运行。 2 * RTX 6000 Ada（该方案A6000 或 RTX 6000不符合要求） Falcon-40B 经济型 2 * A6000 另外附上对于该大模型其他方案与 Nvidia A100s at the time.” ——8k张A100 训练 Falcon (40B) “384 A100 40GB GPUs” 微调大尺寸的大模型 “64 A100 40GB GPUs” 微调尺寸的大模型 “4x A100 80gb” Stable
4.3K51编辑于 2023-07-30
来自专栏掘金安东尼
👾打开 RAG 对接大模型的黑盒 —— 9 大隐藏问题
Prompt 给他介绍一下相关背景，然后大模型就有更专业的应答能力了。言而总之，大数据时代，很多公司都拥有大量的专有数据，如果能基于它们创建 RAG，将显著提升大模型的特异性。对于很多人来说，RAG 的引入、与大模型的对接是一个黑盒，任何微小参数的变动都将引起结果发生很大的变化。 /模型没有回答问题/模型编造有害的或带有偏见的答案接下来，一起揭秘：RAG 对接大模型的黑盒 —— 9 大问题来源：Seven Failure Points When Engineering a Retrieval 总结本篇提供了开发 RAG 通道 9 个痛点，并针对每个痛点都给了相应的解决思路。 RAG 是非常重要的专用检索+通用大模型的技术手段，在赋能模型、满足特定化场景中非常重要！
77810编辑于 2024-04-04
来自专栏机器之心
消费级GPU成功运行1760亿参数大模型
机器之心报道机器之心编辑部在消费级 GPU 上运行大规模模型是机器学习社区正面临的挑战。例如，BLOOM-176B 需要在 8 个 80GB A100 GPU（每个约 15000 美元）上运行才能完成推理任务，而微调 BLOOM-176B 则需要 72 个这样的 GPU。实验表明，通过使用 LLM.int8()，可以在消费级 GPU 上使用多达 175B 参数的 LLM 执行推理，而不会降低性能。该方法不仅为异常值对模型性能的影响提供了新思路，还首次使在消费级 GPU 的单个服务器上使用非常大的模型成为可能，例如 OPT-175B/BLOOM。这使得 FP16 数字的可表示范围远低于 FP32，面临溢出（试图表示一个非常大的数字）和下溢（表示一个非常小的数字）的风险。
1.7K10编辑于 2022-08-25
来自专栏AI前沿技术
大模型训练—Nvidia GPU 互联技术全景图
本文主要介绍：GPU和存储系统的数据交互，GPU和GPU在节点内和节点间的通信瓶颈和对应优化方案。主要涉及GPUDirect系列，NVLink、NVSwitch等核心技术介绍。 2，GPU和GPU之间的数据流动 2.1，有共享内存参与的GPU-GPU间数据流动： 1）GPU0 通过PCle将显存中的数据，拷贝到系统内存中的固定共享内存。 2）从共享内存通过PCIe总线，将数据拷贝到GPU1显存中。利用此方案将数据从GPU0传送到GPU1，整个过程发生多次数据拷贝，直观上有些是冗余拷贝。如果两个GPU连接到同一PCIe总线，P2P允许每个GPU直接访问自己与对方的GPU显存，而不用通过CPU辅助。即将数据从源GPU拷贝到目标GPU不需要系统内存缓存中间数据。例如，在训练千亿参数模型时，节点内8个GPU 使用 NVLink P2P同步梯度；节点间通过 RDMA将聚合后的梯度广播到其他服务器。
78511编辑于 2026-01-13
买不起GPU，玩不起大模型，ChatBI还有戏吗？
从ChatGPT到各类开源大模型，人工智能正从遥远的技术概念，变为触手可及的生产力工具。无论是训练还是运行大型语言模型（LLM），都离不开以NVIDIAH100为代表的昂贵GPU集群。我们这些买不起GPU、玩不起大模型的普通企业，是否就此与这场数据分析的革命无缘？答案是否定的。本文将揭示一条更具普适性的路径，证明即便不依赖昂贵的大模型，企业依然可以实现高效、低成本的ChatBI。根据GeeksforGeeks的硬件推荐，运行大型模型需要配备如NVIDIAA100或RTX4090等拥有海量VRAM的专业GPU，以及高性能CPU、大容量内存和高速存储，整套系统的成本动辄数十万美元。结语：务实的选择，即是最好的选择回到最初的问题：买不起GPU，玩不起大模型，ChatBI还有戏吗？答案是肯定的。
22310编辑于 2026-01-05
来自专栏Python与算法之美
使用GPU训练模型
构建模型的3种方法(继承nn.Module基类，使用nn.Sequential，辅助应用模型容器) 训练模型的3种方法(脚本风格，函数风格，torchkeras.Model类风格) 使用GPU训练模型( 单GPU训练，多GPU训练) 本篇我们介绍使用GPU训练模型。 Pytorch中使用GPU加速模型非常简单，只要将模型和数据移动到GPU上。核心代码只有以下几行。 # 定义模型 ... 如果要使用多个GPU训练模型，也非常简单。只需要在将模型设置为数据并行风格模型。则模型移动到GPU上之后，会在每一个GPU上拷贝一个副本，并把数据平分到各个GPU上进行训练。核心代码如下。《torch使用gpu训练模型》 https://colab.research.google.com/drive/1FDmi44-U3TFRCt9MwGn4HIj2SaaWIjHu?
3.5K20发布于 2020-07-22
来自专栏DeepHub IMBA
9月大型语言模型研究论文总结
大型语言模型(llm)在今年发展迅速，随着新一代模型不断地被开发，研究人员和工程师了解最新进展变得非常重要。本文总结9-10月期间发布了一些重要的LLM论文。这些论文涵盖了一系列语言模型的主题，从模型优化和缩放到推理、基准测试和增强性能。最后部分讨论了有关安全训练并确保其行为保持有益的论文。这种方法产生了MathCoder模型，这是一组能够生成基于代码的解决方案的模型，用于解决具有挑战性的数学问题。现有的问答基准(如ToMi)会向模型提问，以推断故事中人物的信念，但不会测试模型是否可以使用这些推断来指导它们的行动。 SmartPlay中的每个游戏都独特地挑战了智能LLM代理的9个重要功能的子集，包括对象依赖性推理，提前计划，空间推理，从历史中学习和理解随机性。
76521编辑于 2023-10-23
来自专栏云服务业务
如何在腾讯云GPU服务器上部署私有化大模型？附GPU简介
本文讲如何用最低成本在腾讯云上部署专属大模型？首先来了解部署专属大模型前期的工作准备和腾讯云GPU服务器的简介。服务器配置推荐如下： GPU：NVIDIA T4/A10/A100 CPU：32核以上内存：64GB以上软件环境：操作系统：主流的操作系统如 Windows 10/11、Ubuntu 等都可以用于大模型部署 Python 环境：Python 是大模型开发和部署的核心语言。我们需要安装 Python 3.7 及以上版本。腾讯云GPU服务器进行大模型部署优势性能优势 T4/A10/A100等多种GPU配置可选；支持GPU直通，性能损耗极小；网络带宽大，数据传输快速。三、模型部署流程 1. 模型准备首先，我们需要准备好微调后的模型文件。
1.4K20编辑于 2025-09-04
H100 GPU如何加速大语言模型与AI开发
GPU提供的高并行处理能力对于处理神经网络的复杂计算至关重要。GPU设计用于同时执行不同的计算，从而加速任何大语言模型的训练和推理。显著特性配备多项先进特性的NVIDIA H100 NVL GPU，为大语言模型的性能和可扩展性进行了优化。 H100 NVL GPU的这些先进特性增强了大语言模型的性能和可扩展性，使其更易于主流使用且更高效。与上一代NVIDIA A100 GPU相比，它们在训练AI模型时最快可提升9倍，在进行预测（推理）时最快可提升30倍。 Transformer引擎和第四代Tensor核心： H100 GPU中的这些先进技术实现了这些惊人的加速，特别是对于大语言模型和合成媒体模型。
36910编辑于 2026-01-15
来自专栏AI SPPECH
42_大语言模型的计算需求：从GPU到TPU
第二章 GPU架构与大语言模型加速 2.1 GPU架构的演进与特点 GPU（图形处理单元）最初设计用于图形渲染，但由于其强大的并行计算能力，已成为大语言模型训练和推理的主流硬件。 2.2 GPU在大语言模型训练中的应用 GPU在大语言模型训练中发挥着核心作用，其并行计算能力和内存带宽使其成为训练超大规模模型的首选硬件。每消耗一瓦电力能执行的计算量 2025年，NVIDIA H100 GPU在大语言模型训练中的性能已经达到了惊人的水平，训练速度比A100提升了9倍，这主要得益于其先进的架构设计和优化的软件栈。 2.3 GPU在大语言模型推理中的应用随着生成式AI应用的普及，GPU在大语言模型推理中的应用也越来越广泛。2025年，GPU已经成为大规模AI推理服务的核心硬件。计算性能提升与上一代产品相比，2025年NVIDIA新一代GPU在大语言模型计算性能上实现了跨越式提升：训练性能：H100训练速度比A100提升9倍推理性能：H100推理速度比A100提升30倍
75510编辑于 2025-11-16
来自专栏大模型应用
大模型应用：GPU的黑盒拆解：可视化看透大模型并行计算的底层逻辑.67
，GPU 则通过海量的计算核心，主攻高吞吐量的并行任务，比如大模型推理、图形渲染、深度学习训练。寄存器文件与共享内存：提供快速数据存储，共享内存支持线程块内高效通信对大模型算力的影响：SM 数量决定 GPU 并行算力上限；更多SM意味着更高的理论峰值算力张量核心是大模型 INT4/INT8 量化加速的关键硬件带宽决定 CPU→GPU 的数据传输速度；大模型推理时，若输入数据量大，PCIe 5.0 比 4.0 传输效率提升 1 倍模型加载阶段：大模型权重文件（如70B模型FP16约140GB）的加载速度直接受）隔离、动态并行大模型专用优化策略：显存优化技术：梯度检查点：用计算换显存，存储关键激活值而非全部模型并行：将大模型层拆分到多个GPU卸载技术：将部分数据暂存CPU内存或NVMe SSD计算优化技术：模型推理：GPU算力瓶颈的原因在大模型推理时，经常遇到 “显卡算力高但利用率低” 的问题，底层原因主要有 3 类：1.
24332编辑于 2026-04-05
来自专栏机器之心
致命幻觉问题、开发GPU替代品，大模型还面临这10大挑战
机器之心编译编辑：陈萍、梓文大型语言模型，还有哪些挑战和机遇，这篇博客全都概括了。 ChatGPT、GPT-4 等的发布，让我们在见识到大模型（LLM）的魅力后，伴随而来的是其所面临的各种挑战。面对大模型，到底有哪些需要解决的问题？成为 AI 领域重要的研究课题。本文，计算机科学家 Chip Huyen 从 10 个方面入手，全面阐述 LLM 面临的挑战。开发 GPU 替代品自 2012 年 AlexNet 发布以来，GPU 一直占据深度学习的主导地位。在 GPU 出现之前，如果你想训练 AlexNet 这种规模的模型，必须使用数千个 CPU，而 GPU 几个就能搞定。过去十年中，无论是大公司还是初创公司，都尝试为人工智能创建新的硬件。 9. 提高聊天界面的效率自 ChatGPT 以来，关于聊天是否适合各种任务的讨论不绝于耳。
41750编辑于 2023-09-08
聊一聊GPU是如何用来训练AI大模型的
过去几年，显卡的GPU芯片已经成为人工智能世界最重要的底层武器。没有GPU，今天的ChatGPT根本不可能出现，更不可能有大模型带来的这场AI革命。神经网络模型里，每一层的神经元和下一层之间都有权重连接，这些连接关系其实都可以转化为矩阵。一次输入经过矩阵乘法运算，就会得到输出，再通过激活函数进入下一层。整个过程无非就是矩阵加法和乘法的组合。 AI模型需要的正是这种大规模并行的矩阵运算能力，而GPU早已在游戏产业里打磨了二三十年，硬件和架构都非常成熟。于是，AI训练就像一只手找到了另一只手套，天生契合。很多人以为GPU只是硬件强大，其实英伟达真正的杀手锏不在芯片，而在CUDA生态。2007年，英伟达推出CUDA平台，让开发者可以直接调用GPU的算力写程序。 ChatGPT的训练用了上万颗英伟达GPU，这不是因为别家GPU算力不行，而是因为CUDA已经形成了完整的生态。
25810编辑于 2026-03-17
来自专栏深度学习与python
Hugging Face 发布了高效的跨 GPU 大语言模型训练指南
作者 | Daniel Dominguez 译者 | 刘雅梦策划 | 丁晓昀 Hugging Face 发布了《超大规模实战指南：在 GPU 集群上训练大语言模型（LLMs）》，这是一份开源指南，详细探讨了跨 GPU 集群进行大语言模型训练的方法和技术。数据并行（Data Parallelism，DP）使多个 GPU 能同时处理不同批次的数据，而张量并行（Tensor Parallelism，TP）则通过在 GPU 之间分配模型权重来平衡内存使用和计算负载流水线并行（Pipeline parallelism，PP）将模型拆分为多个分布在不同 GPU 上的段，使得模型的不同部分可以并发处理。通过测试各种配置来确定批处理的大小、模型架构和使用的 GPU 数量之间的最佳平衡。有效的基准测试有助于提高训练速度、资源分配和计算效率，这对于大规模训练是至关重要的。
55810编辑于 2025-03-11
来自专栏DeepHub IMBA
大模型训练的硬件基础：GPU内存层级、分块与并行策略
但实际上每块 GPU 里复制了完整的模型参数、梯度、主权重以及 Adam 优化器状态。Adam 的状态量是模型参数量的两倍，内存占用很大。对于大模型，内存成为硬瓶颈。本质上是按需逐层从各 GPU 拼出模型，任何时候都没有一块 GPU 持有全部权重。通信开销增加了，但内存节省巨大。对于给定的 GPU 配置，ZeRO Stage 3 能训练的模型规模远超前两个阶段。 CS336 课程给出的数据：8 块 A100 80GB GPU 上，不同策略可训练的最大模型尺寸差异很大。同样的硬件配置下，ZeRO Stage 3 能训练的模型大了很多。 batch size 不能小于 GPU 数量：没法给一台机器半个样本。而 batch size 越大收益越低：大 batch 降低数据噪声方差，但超过一定阈值后边际收益接近于零。模型并行除了按数据维度拆分，还可以按模型维度切分，即模型并行。这里介绍两种形式：流水线并行和张量并行。模型并行：流水线并行流水线并行沿深度方向切分模型，一层分配给一块 GPU。
28110编辑于 2026-03-09

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

为什么大模型训练需要GPU，以及适合训练大模型的GPU介绍

谷歌Tensor G3解析：9核CPU＋10核GPU，支持本地AI大模型！

GPU实战：低成本运行多模态大模型

【玩转 GPU】本地部署大模型--chatGLM（尝鲜篇）

为大模型提供服务需要多少 GPU 显存？

【玩转 GPU】初探大模型、Stable Diffusion所需GPU配置（根据需求提供不同选择）

👾打开 RAG 对接大模型的黑盒 —— 9 大隐藏问题

消费级GPU成功运行1760亿参数大模型

大模型训练—Nvidia GPU 互联技术全景图

买不起GPU，玩不起大模型，ChatBI还有戏吗？

使用GPU训练模型

9月大型语言模型研究论文总结

如何在腾讯云GPU服务器上部署私有化大模型？附GPU简介

H100 GPU如何加速大语言模型与AI开发

42_大语言模型的计算需求：从GPU到TPU

大模型应用：GPU的黑盒拆解：可视化看透大模型并行计算的底层逻辑.67

致命幻觉问题、开发GPU替代品，大模型还面临这10大挑战

聊一聊GPU是如何用来训练AI大模型的

Hugging Face 发布了高效的跨 GPU 大语言模型训练指南

大模型训练的硬件基础：GPU内存层级、分块与并行策略

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐