搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏NLP算法工程师之路
配置CentOS7 GPU环境
bash Anaconda3-5.2.0-Linux-x86_64.sh 使能配置 source .bashrc 输入Python，查看是否配置正确 Conda安装TesnorFlow GPU 版本配置国内conda源。由于cudnn和cuda很大，conda又在国外，容易导致下载中断，这里我们配置国内中科大的镜像。我的cuda版本是9.0，cudnn版本是7.1.2，tensorflow-gpu版本是1.9.0。 /kernel-devel-3.10.0-693.17.1.el7.x86_64.rpm yum install kernel-devel-3.10.0-693.17.1.el7.x86_64.rpm
2.1K30发布于 2019-12-18
来自专栏ReganYue's Blog
【玩转 GPU】初探大模型、Stable Diffusion所需GPU配置（根据需求提供不同选择）
初探大模型、Stable Diffusion所需GPU配置（根据需求提供不同选择）部署Falcon-40B、MPT-30B 和 Stable Diffusion 应该使用哪些 GPU 方案？本文将对每一种模型部署所需GPU提供多种方案——性能型、均衡型、经济型。通过阅读本文，就不必研究市面上所有型号的GPU，并测试判断下面这几种模型能否在选择的GPU上运行。 2 * RTX 6000 Ada（该方案A6000 或 RTX 6000不符合要求） Falcon-40B 经济型 2 * A6000 另外附上对于该大模型其他方案与 Stable Diffusion 经济型 1 * RTX 3090 或 1 * A5000 附表：一些GPU配置需求场景 GPU配置要求 Nvidia A100s at the time.” ——8k张A100 训练 Falcon (40B) “384 A100 40GB GPUs” 微调大尺寸的大模型
4.3K51编辑于 2023-07-30
来自专栏计算机视觉
为什么大模型训练需要GPU，以及适合训练大模型的GPU介绍
文章目录前言 1、为什么大模型训练需要GPU，而非CPU 2、现在都有哪些合适的GPU适合训练，价格如何前言今天偶然看到一篇关于介绍GPU的推文，我们在复现代码以及模型训练过程中，GPU的使用是必不可少的，那么大模型训练需要的是GPU，而不是CPU呢。 1、为什么大模型训练需要GPU，而非CPU 总的来说，选择GPU而非CPU进行大模型训练的主要原因是因为GPU在并行处理能力、高吞吐量和针对机器学习任务的优化方面的优势。下面介绍几款常用的GPU： A100：非常适合大规模并行计算任务和大模型训练，现在用的最多的卡之一，性价比高，1.5w美元左右，但是溢价严重，人民币价格区间10w~20w，运气好的话10w左右可以拿下。 4090：最后再来说一下4090显卡，4090显卡训练大模型不行，因为大模型训练需要高性能的通信，但4090的通信效率太低，但是进行推理可以。价格一般在2w左右。
6.3K11编辑于 2024-04-25
来自专栏AI分享
GPU实战：低成本运行多模态大模型
无服务器 GPU 服务结合其弹性扩展和按需付费的特性，为开发者提供了部署多模态大模型的理想平台。本文将从实战角度，探讨如何基于无服务器 GPU 基础设施，低成本运行多模态大模型。环境配置与模型部署优化方案弹性GPU计算集群构建（无服务器模式）在 Machine Learning服务中，可通过智能资源调度实现GPU资源的弹性供给。推荐使用NCv3系列虚拟机（建议选择Standard_NC6s_v3型号，搭载NVIDIA Tesla V100 GPU），该配置在计算性能与成本效益间取得平衡，特别适合大模型推理场景。硬件层面采用AMD EPYC 7V12处理器与NVIDIA A100 80GB GPU的混合架构，通过NVSwitch实现GPU间600GB/s的超高带宽互联。无服务器 GPU 通过弹性资源、精细化成本控制和多模态工具链，为开发者提供了高效运行大模型的解决方案。
4.5K11编辑于 2025-04-14
来自专栏计算机视觉CV
【玩转 GPU】本地部署大模型--chatGLM（尝鲜篇）
本文主要介绍ChatGLM-6B 的本地部署，提供更保姆级别的教程，让完全不懂技术的同学，也能在本地部署大模型～在19年曾经尝试过使用GPT2进行代码补全，当时就被大模型效果惊艳到啊，只是没想到短短3年多，大模型效果提升这么快。学不完，根本学不完....大模型实在太火了，终于还是忍不住对它下手。今天介绍如何在本地部署大模型尝鲜，后面有时间会持续出大模型技术原理篇。 1 大语言模型LLM大语言模型（Large Language Model），是一种人工智能模型，旨在理解和生成人类语言。但是现在有很多开发者，对自研的大模型进行开源，更好支持中文，更友好的部署环境。比如ChatGLM-6B。
27.5K289编辑于 2023-06-03
来自专栏TechLead
为大模型提供服务需要多少 GPU 显存？
在几乎所有的 LLM 面试中，有一个问题总是会被提及：“为大模型提供服务需要多少 GPU 显存？” 当你使用 GPT、LLaMA 或任何其他 LLM 时，了解如何估算所需的 GPU 内存是至关重要的。无论你是在处理一个 70 亿参数的模型，还是更大的模型，正确地配置硬件以支持这些模型至关重要。让我们深入探讨一下数学计算，这将帮助你估算有效部署这些模型所需的 GPU 内存。估算 GPU 内存的公式要估算为大型语言模型提供服务所需的 GPU 内存，可以使用以下公式： M 是 GPU 显存，以 GB（千兆字节）为单位。 P 是模型的参数数量。例如，单个具有 80 GB 内存的 NVIDIA A100 GPU 不足以为该模型提供服务。你至少需要两个具有 80 GB 内存的 A100 GPU，才能有效地处理内存负载。
1.7K11编辑于 2024-09-20
来自专栏机器之心
消费级GPU成功运行1760亿参数大模型
机器之心报道机器之心编辑部在消费级 GPU 上运行大规模模型是机器学习社区正面临的挑战。 BLOOM 是去年由 1000 多名志愿研究人员在一个名为「BigScience」的项目中创建的，该项目由人工智能初创公司 Hugging Face 利用法国政府的资金运作，今年 7 月 12 日 BLOOM 该方法不仅为异常值对模型性能的影响提供了新思路，还首次使在消费级 GPU 的单个服务器上使用非常大的模型成为可能，例如 OPT-175B/BLOOM。这使得 FP16 数字的可表示范围远低于 FP32，面临溢出（试图表示一个非常大的数字）和下溢（表示一个非常小的数字）的风险。 BF16 为指数保留 8 位，为小数保留 7 位，意味着 BF16 可以保留与 FP32 相同的动态范围。
1.7K10编辑于 2022-08-25
来自专栏AI前沿技术
大模型训练—Nvidia GPU 互联技术全景图
本文主要介绍：GPU和存储系统的数据交互，GPU和GPU在节点内和节点间的通信瓶颈和对应优化方案。主要涉及GPUDirect系列，NVLink、NVSwitch等核心技术介绍。 2，GPU和GPU之间的数据流动 2.1，有共享内存参与的GPU-GPU间数据流动： 1）GPU0 通过PCle将显存中的数据，拷贝到系统内存中的固定共享内存。 2）从共享内存通过PCIe总线，将数据拷贝到GPU1显存中。利用此方案将数据从GPU0传送到GPU1，整个过程发生多次数据拷贝，直观上有些是冗余拷贝。如果两个GPU连接到同一PCIe总线，P2P允许每个GPU直接访问自己与对方的GPU显存，而不用通过CPU辅助。即将数据从源GPU拷贝到目标GPU不需要系统内存缓存中间数据。例如，在训练千亿参数模型时，节点内8个GPU 使用 NVLink P2P同步梯度；节点间通过 RDMA将聚合后的梯度广播到其他服务器。
78711编辑于 2026-01-13
来自专栏数据派THU
详解：7大经典回归模型
来源：csdn 深度学习爱好者本文约2900字，建议阅读5分钟本文给大家介绍机器学习建模中7大经典的回归分析模型。什么是回归分析？ 4.它需要大的样本量，因为在样本数量较少的情况下，极大似然估计的效果比普通的最小二乘法差。 5.自变量不应该相互关联的，即不具有多重共线性。 7.如果因变量是多类的话，则称它为多元逻辑回归。 3. Polynomial Regression多项式回归对于一个回归方程，如果自变量的指数大于1，那么它就是多项式回归方程。 7. ElasticNet回归 ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时，ElasticNet是很有用的。除了这7个最常用的回归技术，你也可以看看其他模型，如Bayesian、Ecological和Robust回归。如何正确选择回归模型？当你只知道一个或两个技术时，生活往往很简单。
1.7K41编辑于 2023-04-18
来自专栏机器之心
7 Papers | DeepMind用AI重写排序算法；将33B大模型塞进单个消费级GPU
Language Model for Video Understanding 作者：Hang Zhang 等论文地址：https://arxiv.org/abs/2306.02858 摘要：近期，大语言模型展现出了令人瞩目的能力我们能否给大模型装上 “眼睛” 和 “耳朵”，让它能够理解视频，陪着用户互动呢？从这个问题出发，达摩院的研究人员提出了 Video-LLaMA，一个具有综合视听能力大模型。推荐：给语言大模型加上综合视听能力，达摩院开源 Video-LLaMA。推荐：将 330 亿参数大模型「塞进」单个消费级 GPU，加速 15%、性能不减。论文 7：FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance 作者：Lingjiao
64510编辑于 2023-08-07
买不起GPU，玩不起大模型，ChatBI还有戏吗？
从ChatGPT到各类开源大模型，人工智能正从遥远的技术概念，变为触手可及的生产力工具。无论是训练还是运行大型语言模型（LLM），都离不开以NVIDIAH100为代表的昂贵GPU集群。我们这些买不起GPU、玩不起大模型的普通企业，是否就此与这场数据分析的革命无缘？答案是否定的。本文将揭示一条更具普适性的路径，证明即便不依赖昂贵的大模型，企业依然可以实现高效、低成本的ChatBI。根据GeeksforGeeks的硬件推荐，运行大型模型需要配备如NVIDIAA100或RTX4090等拥有海量VRAM的专业GPU，以及高性能CPU、大容量内存和高速存储，整套系统的成本动辄数十万美元。结语：务实的选择，即是最好的选择回到最初的问题：买不起GPU，玩不起大模型，ChatBI还有戏吗？答案是肯定的。
22510编辑于 2026-01-05
来自专栏cuijianzhe
配置openstack GPU直通
这里我们将GPU带的4个设备的驱动都配置成vfio的一个原因是：默认情况下，统一pci端口的不同设备，会被分配到同一个iommu组，同一组的设备，只能同时被分配到一个虚拟机使用。 vfio-pci模块，编辑/etc/modules-load.d/openstack-gpu.conf，添加如下内容：#注意vfio_pci的写法，一旦写错，创建带GPU的虚拟机的时候，可能会无法直通到虚拟机或者非常慢 vfio_pci#下面的内容也是参考网上的配置，有可能不需要pci_stubvfiovfio_iommu_type1kvmkvm_intel配置vfio加载的设备配置使用vfio驱动的设备（这里的设备就是上面我们查到的设备的 /sys/bus/pci/drivers/xhci_hcd/unbind;echo “$p” > /sys/bus/pci/drivers/vfio-pci/bind ;done openstack配置控制节点配置主要配置参考这个文档：使用 GPU 在直通中启动虚拟机时出现问题 - 红帽客户门户 (redhat.com)
4.3K10编辑于 2022-07-22
来自专栏Python与算法之美
使用GPU训练模型
构建模型的3种方法(继承nn.Module基类，使用nn.Sequential，辅助应用模型容器) 训练模型的3种方法(脚本风格，函数风格，torchkeras.Model类风格) 使用GPU训练模型( 单GPU训练，多GPU训练) 本篇我们介绍使用GPU训练模型。 Pytorch中使用GPU加速模型非常简单，只要将模型和数据移动到GPU上。核心代码只有以下几行。 # 定义模型 ... 如果要使用多个GPU训练模型，也非常简单。只需要在将模型设置为数据并行风格模型。则模型移动到GPU上之后，会在每一个GPU上拷贝一个副本，并把数据平分到各个GPU上进行训练。核心代码如下。范例下面演示使用torchkeras来应用GPU训练模型的方法。
3.5K20发布于 2020-07-22
来自专栏云服务业务
如何在腾讯云GPU服务器上部署私有化大模型？附GPU简介
本文讲如何用最低成本在腾讯云上部署专属大模型？首先来了解部署专属大模型前期的工作准备和腾讯云GPU服务器的简介。服务器配置推荐如下： GPU：NVIDIA T4/A10/A100 CPU：32核以上内存：64GB以上软件环境：操作系统：主流的操作系统如 Windows 10/11、Ubuntu 等都可以用于大模型部署 Python 环境：Python 是大模型开发和部署的核心语言。我们需要安装 Python 3.7 及以上版本。腾讯云GPU服务器进行大模型部署优势性能优势 T4/A10/A100等多种GPU配置可选；支持GPU直通，性能损耗极小；网络带宽大，数据传输快速。配置出站规则建议仅开放必要的出站连接如果需要下载模型或包，确保能访问相关地址 4.
1.4K20编辑于 2025-09-04
H100 GPU如何加速大语言模型与AI开发
GPU提供的高并行处理能力对于处理神经网络的复杂计算至关重要。GPU设计用于同时执行不同的计算，从而加速任何大语言模型的训练和推理。 H100 PCIe Gen 5 GPUH100 PCIe Gen 5配置拥有与H100 SXM5 GPU相同的功能，但功耗仅为350瓦。显著特性配备多项先进特性的NVIDIA H100 NVL GPU，为大语言模型的性能和可扩展性进行了优化。 H100 NVL GPU的这些先进特性增强了大语言模型的性能和可扩展性，使其更易于主流使用且更高效。 Transformer引擎和第四代Tensor核心： H100 GPU中的这些先进技术实现了这些惊人的加速，特别是对于大语言模型和合成媒体模型。
37110编辑于 2026-01-15
来自专栏AI SPPECH
42_大语言模型的计算需求：从GPU到TPU
第二章 GPU架构与大语言模型加速 2.1 GPU架构的演进与特点 GPU（图形处理单元）最初设计用于图形渲染，但由于其强大的并行计算能力，已成为大语言模型训练和推理的主流硬件。 2.2 GPU在大语言模型训练中的应用 GPU在大语言模型训练中发挥着核心作用，其并行计算能力和内存带宽使其成为训练超大规模模型的首选硬件。 2.3 GPU在大语言模型推理中的应用随着生成式AI应用的普及，GPU在大语言模型推理中的应用也越来越广泛。2025年，GPU已经成为大规模AI推理服务的核心硬件。 FPGA的技术特点 FPGA具有以下技术特点：可编程性：可以通过编程重新配置硬件电路，适应不同的计算需求灵活性：可以在不更换硬件的情况下更新算法和优化实现低延迟：硬件级并行可以实现极低的计算延迟 ASIC提高灵活性：通过可配置单元提高ASIC的灵活性混合架构：结合多种加速器的优势，如CPU+GPU+ASIC的异构系统这种融合趋势使得不同类型加速器之间的界限变得越来越模糊，也为大语言模型计算提供了更多优化空间
75610编辑于 2025-11-16
来自专栏openclaw系列
OpenClaw怎么换大模型？3步免费切换各种大模型配置教程
一句话总结：OpenClaw 本身不内置任何大模型，而是通过灵活的配置机制对接各类模型服务。更换模型只需三步：选择目标模型获取 API Key、在配置文件中添加模型提供商、重启网关生效。第一章：核心原理——OpenClaw 如何对接大模型？1.1 为什么需要更换模型？OpenClaw 的核心价值在于“连接”——连接大模型的思考能力与电脑的真实操作权限。 hunyuan-turbo# 临时切换单次对话（不改变默认）openclaw chat --model yuanbao/hunyuan-turbo --prompt "测试"第二章：云端模型配置——接入主流大模型 2.1 腾讯元宝模型配置（推荐中文场景）腾讯元宝基于混元大模型，提供强大的中文理解和多模态能力，2026 年推出免费额度方案，大幅降低使用门槛。选择更小的量化版本（如从 Q5_K_M 换为 Q4_K_M）选择更小的模型（如从 32B 换为 7B）确保 GPU 驱动正常，CPU 推理会明显变慢调整 Context Window 长度，过长的上下文会消耗大量显存
11.7K43编辑于 2026-03-28
来自专栏大模型应用
大模型应用：大模型参数调优：结合本地模型对比多种组合探索差异.7
引言在大模型的应用中，参数调优是连接模型潜力与实际效能的关键桥梁。与传统的软件参数不同，大模型的生成参数更像是一组精密的调控旋钮，它们不改变模型的基础知识，而是影响模型如何思考和表达。理解这些参数的本质，不仅能够提升模型输出的质量，更是将大模型从玩具转变为工具的关键一步。今天我们将从理论基础到实践应用，全面解析大模型的核心参数体系，详细的介绍大模型推理中常用的参数项，并通过本地模型示例展示参数调整对模型效能的影响。常见参数项：max_length：生成文本的最大长度。 Dict, Anyimport pandas as pdfrom modelscope import snapshot_downloadclass ModelParameterTester: """大模型参数测试器分步调优流程图五、总结大模型的参数调优本质上是在控制与释放之间寻找平衡的艺术。
70732编辑于 2026-02-04
来自专栏大模型应用
大模型应用：GPU的黑盒拆解：可视化看透大模型并行计算的底层逻辑.67
（如 14B 模型 INT4 量化需约 7GB 显存）带宽决定数据传输速度 —— 带宽不足会导致 "GPU 等数据"，算力空转大模型训练时，显存容量限制批量大小（batch size），直接影响训练稳定性带宽决定 CPU→GPU 的数据传输速度；大模型推理时，若输入数据量大，PCIe 5.0 比 4.0 传输效率提升 1 倍模型加载阶段：大模型权重文件（如70B模型FP16约140GB）的加载速度直接受核心指标：1.容量：仓库大小，比如 RTX 4090 有 24GB 显存，能存下 INT4 量化的 14B 模型（约 7GB）；2. 计算示例：显存带宽对算力的影响假设要算14B 模型 INT4 量化推理：模型权重大小：14B × 4bit = 7GB；若显存带宽是 500 GB/s：读取权重需要7/500=0.014秒；若显存带宽是初始化配置 ======================# 模拟大模型推理的矩阵大小（14B模型注意力层常见维度）BATCH_SIZE = 32SEQ_LEN = 512HIDDEN_SIZE = 128
24532编辑于 2026-04-05
来自专栏机器之心
致命幻觉问题、开发GPU替代品，大模型还面临这10大挑战
机器之心编译编辑：陈萍、梓文大型语言模型，还有哪些挑战和机遇，这篇博客全都概括了。 ChatGPT、GPT-4 等的发布，让我们在见识到大模型（LLM）的魅力后，伴随而来的是其所面临的各种挑战。面对大模型，到底有哪些需要解决的问题？成为 AI 领域重要的研究课题。本文，计算机科学家 Chip Huyen 从 10 个方面入手，全面阐述 LLM 面临的挑战。以下是 Guanaco 7B 与 ChatGPT 和 GPT-4 等模型的性能比较。但我们不得不强调，对 LLM 进行评估还是非常难的。开发 GPU 替代品自 2012 年 AlexNet 发布以来，GPU 一直占据深度学习的主导地位。在 GPU 出现之前，如果你想训练 AlexNet 这种规模的模型，必须使用数千个 CPU，而 GPU 几个就能搞定。过去十年中，无论是大公司还是初创公司，都尝试为人工智能创建新的硬件。
41850编辑于 2023-09-08

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

配置CentOS7 GPU环境

【玩转 GPU】初探大模型、Stable Diffusion所需GPU配置（根据需求提供不同选择）

为什么大模型训练需要GPU，以及适合训练大模型的GPU介绍

GPU实战：低成本运行多模态大模型

【玩转 GPU】本地部署大模型--chatGLM（尝鲜篇）

为大模型提供服务需要多少 GPU 显存？

消费级GPU成功运行1760亿参数大模型

大模型训练—Nvidia GPU 互联技术全景图

详解：7大经典回归模型

7 Papers | DeepMind用AI重写排序算法；将33B大模型塞进单个消费级GPU

买不起GPU，玩不起大模型，ChatBI还有戏吗？

配置openstack GPU直通

使用GPU训练模型

如何在腾讯云GPU服务器上部署私有化大模型？附GPU简介

H100 GPU如何加速大语言模型与AI开发

42_大语言模型的计算需求：从GPU到TPU

OpenClaw怎么换大模型？3步免费切换各种大模型配置教程

大模型应用：大模型参数调优：结合本地模型对比多种组合探索差异.7

大模型应用：GPU的黑盒拆解：可视化看透大模型并行计算的底层逻辑.67

致命幻觉问题、开发GPU替代品，大模型还面临这10大挑战

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐