搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏ReganYue's Blog
【玩转 GPU】初探大模型、Stable Diffusion所需GPU配置（根据需求提供不同选择）
初探大模型、Stable Diffusion所需GPU配置（根据需求提供不同选择）部署Falcon-40B、MPT-30B 和 Stable Diffusion 应该使用哪些 GPU 方案？本文将对每一种模型部署所需GPU提供多种方案——性能型、均衡型、经济型。通过阅读本文，就不必研究市面上所有型号的GPU，并测试判断下面这几种模型能否在选择的GPU上运行。 Stable Diffusion 经济型 1 * RTX 3090 或 1 * A5000 附表：一些GPU配置需求场景 GPU配置要求 Nvidia A100s at the time.” ——8k张A100 训练 Falcon (40B) “384 A100 40GB GPUs” 微调大尺寸的大模型 “64 A100 40GB GPUs” 微调尺寸的大模型 “4x A100 80gb” Stable
4.3K51编辑于 2023-07-30
来自专栏计算机视觉
为什么大模型训练需要GPU，以及适合训练大模型的GPU介绍
文章目录前言 1、为什么大模型训练需要GPU，而非CPU 2、现在都有哪些合适的GPU适合训练，价格如何前言今天偶然看到一篇关于介绍GPU的推文，我们在复现代码以及模型训练过程中，GPU的使用是必不可少的，那么大模型训练需要的是GPU，而不是CPU呢。 1、为什么大模型训练需要GPU，而非CPU 总的来说，选择GPU而非CPU进行大模型训练的主要原因是因为GPU在并行处理能力、高吞吐量和针对机器学习任务的优化方面的优势。下面介绍几款常用的GPU： A100：非常适合大规模并行计算任务和大模型训练，现在用的最多的卡之一，性价比高，1.5w美元左右，但是溢价严重，人民币价格区间10w~20w，运气好的话10w左右可以拿下。 4090：最后再来说一下4090显卡，4090显卡训练大模型不行，因为大模型训练需要高性能的通信，但4090的通信效率太低，但是进行推理可以。价格一般在2w左右。
6.3K11编辑于 2024-04-25
来自专栏AI分享
GPU实战：低成本运行多模态大模型
随着多模态大模型（如视觉-语言模型、文本-音频生成模型等）的快速发展，企业对高效、低成本的算力需求日益迫切。无服务器 GPU 服务结合其弹性扩展和按需付费的特性，为开发者提供了部署多模态大模型的理想平台。本文将从实战角度，探讨如何基于无服务器 GPU 基础设施，低成本运行多模态大模型。环境配置与模型部署优化方案弹性GPU计算集群构建（无服务器模式）在 Machine Learning服务中，可通过智能资源调度实现GPU资源的弹性供给。推荐使用NCv3系列虚拟机（建议选择Standard_NC6s_v3型号，搭载NVIDIA Tesla V100 GPU），该配置在计算性能与成本效益间取得平衡，特别适合大模型推理场景。无服务器 GPU 通过弹性资源、精细化成本控制和多模态工具链，为开发者提供了高效运行大模型的解决方案。
4.5K11编辑于 2025-04-14
来自专栏计算机视觉CV
【玩转 GPU】本地部署大模型--chatGLM（尝鲜篇）
本文主要介绍ChatGLM-6B 的本地部署，提供更保姆级别的教程，让完全不懂技术的同学，也能在本地部署大模型～在19年曾经尝试过使用GPT2进行代码补全，当时就被大模型效果惊艳到啊，只是没想到短短3年多，大模型效果提升这么快。学不完，根本学不完....大模型实在太火了，终于还是忍不住对它下手。今天介绍如何在本地部署大模型尝鲜，后面有时间会持续出大模型技术原理篇。 1 大语言模型LLM大语言模型（Large Language Model），是一种人工智能模型，旨在理解和生成人类语言。 # model = AutoModel.from_pretrained("THUDM/chatglm-6b-int4", trust_remote_code=True).float()# 使用GPU跑4
27.5K289编辑于 2023-06-03
来自专栏TechLead
为大模型提供服务需要多少 GPU 显存？
在几乎所有的 LLM 面试中，有一个问题总是会被提及：“为大模型提供服务需要多少 GPU 显存？” 当你使用 GPT、LLaMA 或任何其他 LLM 时，了解如何估算所需的 GPU 内存是至关重要的。无论你是在处理一个 70 亿参数的模型，还是更大的模型，正确地配置硬件以支持这些模型至关重要。估算 GPU 内存的公式要估算为大型语言模型提供服务所需的 GPU 内存，可以使用以下公式： M 是 GPU 显存，以 GB（千兆字节）为单位。 P 是模型的参数数量。 4B 表示每个参数使用的 4 字节。 Q 是加载模型的位数（例如，16 位或 32 位）。 1.2 考虑了 20% 的额外开销。分解公式参数数量（P）：这代表了模型的大小。例如，如果你正在使用一个具有 700 亿参数（70B）的 LLaMA 模型，那么这个值就是 700 亿。每个参数的字节数（4B）：每个参数通常需要 4 个字节的内存。
1.7K11编辑于 2024-09-20
来自专栏后台技术汇
大模型应用之（4）：Langchain架构与大模型接入
作为一个语言模型集成框架，LangChain 的用例与一般语言模型的用例有很大的重叠。重叠范围包括文档分析和总结摘要, 代码分析和聊天机器人。 Langchain架构 LangChain工具组件：大模型包装器、聊天模型包装器、数据增强工具和接口链：提供了标准接口，和数据平台和实际应用工具紧密集成 LangChain六大模块模块核心作用 Agent作为高级模块，可调用其他所有模块功能大模型接入接入示例云服务和私有化大模型优劣对比维度开发成本算力成本运维成本数据安全云厂商大模型较低，开箱即用算力资源充足，大模型性能好 &吞吐量较高较低，提供云平台监控安全性低私有化大模型较高，自建大模型网关、服务鉴权、可用性等算力硬件投入成本高，大模型性能较差低&吞吐量较低较高，需要专业运维团队介入安全性高，保密性强小结： - 研发&测试环境：为了方便部署和测试，使用云服务 - 大客户生产环境：安全审核严格，大多数采用自建大模型的方式总结 LangChain 是什么？
70810编辑于 2025-08-04
来自专栏机器之心
消费级GPU成功运行1760亿参数大模型
机器之心报道机器之心编辑部在消费级 GPU 上运行大规模模型是机器学习社区正面临的挑战。例如，BLOOM-176B 需要在 8 个 80GB A100 GPU（每个约 15000 美元）上运行才能完成推理任务，而微调 BLOOM-176B 则需要 72 个这样的 GPU。该方法不仅为异常值对模型性能的影响提供了新思路，还首次使在消费级 GPU 的单个服务器上使用非常大的模型成为可能，例如 OPT-175B/BLOOM。这使得 FP16 数字的可表示范围远低于 FP32，面临溢出（试图表示一个非常大的数字）和下溢（表示一个非常小的数字）的风险。该研究首先在实验中用 2-byte BF16/FP16 半精度代替 4-byte FP32 精度，实现了几乎相同的推理结果。这样一来，模型减小了一半。
1.7K10编辑于 2022-08-25
来自专栏AI前沿技术
大模型训练—Nvidia GPU 互联技术全景图
GPUDirect 经过多年的发展，如今已经包含四种技术，分别是： 1）GPUDirect Storage 2）GPUDirect RDMA 3）GPUDirect P2P (peer to peer) 4） PCIe 版本传输速率单通道（x1）带宽双通道（x2）带宽四通道（x4）带宽八通道（x8）带宽十六通道（x16）带宽 3.0 8 GT/s 0.98 GB/s 1.97 GB/s 3.94 高带宽：每条 NVLink的带宽可达300 GB/s （双向），远高于PCIe 的带宽(PCIe 4. 0 ×16的带宽为32GB/S)。 4，总结：通过 GPUDirect Storage 技术实现了存储设备和GPU显存的直接访问，数据加载效率大大提升。通过GPUDirect P2P技术实现了GPU之间互联互通，可以快速访问。例如，在训练千亿参数模型时，节点内8个GPU 使用 NVLink P2P同步梯度；节点间通过 RDMA将聚合后的梯度广播到其他服务器。
78711编辑于 2026-01-13
来自专栏大模型成长之路
【大模型学习 | MINIGPT-4原理】
MINIGPT-4: ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS在GPT4未开源的情况下，作者认为其表现优越是因为采用了最为先进的 LLM模型，因此，作者在BLIP2的基础上，将LLM模型替换为了Vicuna，同样也是通过一个线性映射层将图像表征映射为LLM的输入。开源代码：https://minigpt-4.github.io/一、预训练方法预训练方法几乎和BLIP2模型一致，可以参考：【大模型学习 | BLIP2原理】-腾讯云开发者社区-腾讯云1.1 Q-Former ； MINI-GPT4表现比BLIP2要强上许多？ ① MiniGPT-4 使用的是 Vicuna（基于 LLaMA 的开源 ChatGPT 对话模型），具有更强的自然语言表达和指令理解能力；而BLIP-2 使用的 LLM 主要是 Flan-T5 或 OPT
74010编辑于 2025-07-02
买不起GPU，玩不起大模型，ChatBI还有戏吗？
从ChatGPT到各类开源大模型，人工智能正从遥远的技术概念，变为触手可及的生产力工具。根据Kodekx的成本分析，仅一块企业级H100GPU的初始硬件投资就高达2.5万至4万美元。我们这些买不起GPU、玩不起大模型的普通企业，是否就此与这场数据分析的革命无缘？答案是否定的。本文将揭示一条更具普适性的路径，证明即便不依赖昂贵的大模型，企业依然可以实现高效、低成本的ChatBI。根据GeeksforGeeks的硬件推荐，运行大型模型需要配备如NVIDIAA100或RTX4090等拥有海量VRAM的专业GPU，以及高性能CPU、大容量内存和高速存储，整套系统的成本动辄数十万美元。结语：务实的选择，即是最好的选择回到最初的问题：买不起GPU，玩不起大模型，ChatBI还有戏吗？答案是肯定的。
22510编辑于 2026-01-05
来自专栏cuijianzhe
配置openstack GPU直通
这里我们将GPU带的4个设备的驱动都配置成vfio的一个原因是：默认情况下，统一pci端口的不同设备，会被分配到同一个iommu组，同一组的设备，只能同时被分配到一个虚拟机使用。 vfio-pci模块，编辑/etc/modules-load.d/openstack-gpu.conf，添加如下内容：#注意vfio_pci的写法，一旦写错，创建带GPU的虚拟机的时候，可能会无法直通到虚拟机或者非常慢上的4个设备都直通到虚拟机，所以将4个设备信息都写上 #这里还要注意的是device_type，可用的有：type-PCI，type-PF，type-VF，要根据实际情况来：##2080的写法alias type-PCI"}alias = {"name":"nv2080bus","product_id":"1ad7","vendor_id":"10de","device_type":"type-PCI"}##T4的写法参考这个文档：使用 GPU 在直通中启动虚拟机时出现问题 - 红帽客户门户 (redhat.com)
4.3K10编辑于 2022-07-22
来自专栏Python与算法之美
使用GPU训练模型
构建模型的3种方法(继承nn.Module基类，使用nn.Sequential，辅助应用模型容器) 训练模型的3种方法(脚本风格，函数风格，torchkeras.Model类风格) 使用GPU训练模型( 单GPU训练，多GPU训练) 本篇我们介绍使用GPU训练模型。 Pytorch中使用GPU加速模型非常简单，只要将模型和数据移动到GPU上。核心代码只有以下几行。 # 定义模型 ... 如果要使用多个GPU训练模型，也非常简单。只需要在将模型设置为数据并行风格模型。则模型移动到GPU上之后，会在每一个GPU上拷贝一个副本，并把数据平分到各个GPU上进行训练。核心代码如下。《torch使用gpu训练模型》 https://colab.research.google.com/drive/1FDmi44-U3TFRCt9MwGn4HIj2SaaWIjHu?
3.5K20发布于 2020-07-22
来自专栏算法一只狗
LLama4 原生多模态大模型
Meta最新发布了原生多模态大模型 Llama 4，一经亮相即登上LMSYS大模型排行榜第二名，仅次于Google的Gemini-2.5-pro，分差仅为22分，实力可见一斑。硬件要求：单个NVIDIA H100 GPU即可运行，适合资源受限的应用场景。 2. Llama 4 Maverick（大杯）：参数规模：同样为170亿活跃参数，但总参数量达4000亿。硬件要求：需多GPU联合运行，适用于计算资源丰富的环境。 3. Llama 4 Behemoth（超大杯）：参数规模：活跃参数2880亿，总参数量接近2万亿。当前行业趋势多偏向小而高效的模型，Llama 4如此庞大的规模实属少见。总结与展望Llama 4的发布，意味着Meta正式进入原生多模态大模型竞争核心领域。
77500编辑于 2025-05-01
来自专栏云服务业务
如何在腾讯云GPU服务器上部署私有化大模型？附GPU简介
本文讲如何用最低成本在腾讯云上部署专属大模型？首先来了解部署专属大模型前期的工作准备和腾讯云GPU服务器的简介。服务器配置推荐如下： GPU：NVIDIA T4/A10/A100 CPU：32核以上内存：64GB以上软件环境：操作系统：主流的操作系统如 Windows 10/11、Ubuntu 等都可以用于大模型部署 Python 环境：Python 是大模型开发和部署的核心语言。我们需要安装 Python 3.7 及以上版本。腾讯云GPU服务器进行大模型部署优势性能优势 T4/A10/A100等多种GPU配置可选；支持GPU直通，性能损耗极小；网络带宽大，数据传输快速。配置出站规则建议仅开放必要的出站连接如果需要下载模型或包，确保能访问相关地址 4.
1.4K20编辑于 2025-09-04
H100 GPU如何加速大语言模型与AI开发
GPU提供的高并行处理能力对于处理神经网络的复杂计算至关重要。GPU设计用于同时执行不同的计算，从而加速任何大语言模型的训练和推理。 H100 数据表变革模型训练第四代Tensor核心和具有FP8精度的Transformer引擎使H100在训练GPT-3（175B）模型时，速度比前几代快4倍。 H100 PCIe Gen 5 GPUH100 PCIe Gen 5配置拥有与H100 SXM5 GPU相同的功能，但功耗仅为350瓦。显著特性配备多项先进特性的NVIDIA H100 NVL GPU，为大语言模型的性能和可扩展性进行了优化。 H100 NVL GPU的这些先进特性增强了大语言模型的性能和可扩展性，使其更易于主流使用且更高效。
37110编辑于 2026-01-15
来自专栏AI SPPECH
42_大语言模型的计算需求：从GPU到TPU
以下是几个关键指标：模型参数规模顶级大语言模型的参数规模已经突破了万亿级别，如GPT-4的某些变体和其他商业模型。这些模型的训练需要处理数百TB的文本数据，并执行超过10^24次浮点运算。 TPU v4：采用液冷设计，进一步提升了性能密度 TPU v5：优化了能效比，支持更灵活的精度配置 TPU v6：2025年最新一代，能效比上一代提升67%，计算能力大幅增强这一持续的技术演进使得TPU 谷歌大模型训练实践谷歌利用TPU Pod系统训练了多个具有影响力的大语言模型： PaLM：5400亿参数的大语言模型，使用6144个TPU v4芯片训练 Gemini：谷歌最新的多模态大模型，利用TPU ASIC提高灵活性：通过可配置单元提高ASIC的灵活性混合架构：结合多种加速器的优势，如CPU+GPU+ASIC的异构系统这种融合趋势使得不同类型加速器之间的界限变得越来越模糊，也为大语言模型计算提供了更多优化空间 2025年，量化技术已经相当成熟，在保持模型性能的同时，能够将内存占用减少4-8倍，显著降低了大语言模型的部署成本。
75610编辑于 2025-11-16
来自专栏openclaw系列
OpenClaw怎么换大模型？3步免费切换各种大模型配置教程
一句话总结：OpenClaw 本身不内置任何大模型，而是通过灵活的配置机制对接各类模型服务。更换模型只需三步：选择目标模型获取 API Key、在配置文件中添加模型提供商、重启网关生效。第一章：核心原理——OpenClaw 如何对接大模型？1.1 为什么需要更换模型？OpenClaw 的核心价值在于“连接”——连接大模型的思考能力与电脑的真实操作权限。 2.1 腾讯元宝模型配置（推荐中文场景）腾讯元宝基于混元大模型，提供强大的中文理解和多模态能力，2026 年推出免费额度方案，大幅降低使用门槛。选择更小的量化版本（如从 Q5_K_M 换为 Q4_K_M）选择更小的模型（如从 32B 换为 7B）确保 GPU 驱动正常，CPU 推理会明显变慢调整 Context Window 长度，过长的上下文会消耗大量显存 Q4：多个模型如何快速切换？
11.7K43编辑于 2026-03-28
来自专栏大模型应用
大模型应用：GPU的黑盒拆解：可视化看透大模型并行计算的底层逻辑.67
光线追踪核心：主打图形渲染，对大模型无直接作用4. 寄存器文件与共享内存：提供快速数据存储，共享内存支持线程块内高效通信对大模型算力的影响：SM 数量决定 GPU 并行算力上限；更多SM意味着更高的理论峰值算力张量核心是大模型 INT4/INT8 量化加速的关键硬件张量（Tensor Core）：大模型算力的核心张量核心是 GPU 专门为矩阵乘法设计的超级工人，普通 CUDA 核心一次算 1 个乘法，张量核心一次能算4×4矩阵 × 4×4矩阵，是大模型推理四、GPU 并行计算的逻辑以大模型推理的 QKV 矩阵乘法为例，拆解 GPU 的并行过程，就像工厂流水线：步骤 1：任务拆分（CPU→GPU） CPU 把Q×K^T这个大任务，拆成无数个4×4 小矩阵乘法以适配张量核心初始化配置 ======================# 模拟大模型推理的矩阵大小（14B模型注意力层常见维度）BATCH_SIZE = 32SEQ_LEN = 512HIDDEN_SIZE = 128
24532编辑于 2026-04-05
来自专栏机器之心
致命幻觉问题、开发GPU替代品，大模型还面临这10大挑战
机器之心编译编辑：陈萍、梓文大型语言模型，还有哪些挑战和机遇，这篇博客全都概括了。 ChatGPT、GPT-4 等的发布，让我们在见识到大模型（LLM）的魅力后，伴随而来的是其所面临的各种挑战。面对大模型，到底有哪些需要解决的问题？成为 AI 领域重要的研究课题。本文，计算机科学家 Chip Huyen 从 10 个方面入手，全面阐述 LLM 面临的挑战。量化使用更少的位来表示参数，从而达到减小模型大小的目的，例如，有人将 32 位的浮点数改为 16 位，甚至是 4 位的浮点表示；知识蒸馏：一种训练小模型（学生）模仿较大模型或模型集合（教师）的方法；开发 GPU 替代品自 2012 年 AlexNet 发布以来，GPU 一直占据深度学习的主导地位。在 GPU 出现之前，如果你想训练 AlexNet 这种规模的模型，必须使用数千个 CPU，而 GPU 几个就能搞定。过去十年中，无论是大公司还是初创公司，都尝试为人工智能创建新的硬件。
41850编辑于 2023-09-08
来自专栏NLP算法工程师之路
Deepin配置TF GPU环境
使用conda安装GPU加速版本的TensorFlow时，将自动安装GPU支持所需的CUDA和CuDNN库。不需要再额外安装这些库了。总体参照的是下面这篇博客： https://blog.csdn.net/aaronjny/article/details/79330727 第一步：检查我自己电脑上是有GPU的，查看方式是安装nvidia-smi sudo apt-get install nvidia-smi 直接在终端运行nvidia-smi输出GPU信息。安装Tf GPU版本 conda install tensorflow-gpu 测试 ? 正常输出显卡信息则安装完成。
1.1K10发布于 2019-12-16

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

【玩转 GPU】初探大模型、Stable Diffusion所需GPU配置（根据需求提供不同选择）

为什么大模型训练需要GPU，以及适合训练大模型的GPU介绍

GPU实战：低成本运行多模态大模型

【玩转 GPU】本地部署大模型--chatGLM（尝鲜篇）

为大模型提供服务需要多少 GPU 显存？

大模型应用之（4）：Langchain架构与大模型接入

消费级GPU成功运行1760亿参数大模型

大模型训练—Nvidia GPU 互联技术全景图

【大模型学习 | MINIGPT-4原理】

买不起GPU，玩不起大模型，ChatBI还有戏吗？

配置openstack GPU直通

使用GPU训练模型

LLama4 原生多模态大模型

如何在腾讯云GPU服务器上部署私有化大模型？附GPU简介

H100 GPU如何加速大语言模型与AI开发

42_大语言模型的计算需求：从GPU到TPU

OpenClaw怎么换大模型？3步免费切换各种大模型配置教程

大模型应用：GPU的黑盒拆解：可视化看透大模型并行计算的底层逻辑.67

致命幻觉问题、开发GPU替代品，大模型还面临这10大挑战

Deepin配置TF GPU环境

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐