首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏ReganYue's Blog

    【玩转 GPU】初探模型、Stable Diffusion所需GPU配置(根据需求提供不同选择)

    初探模型、Stable Diffusion所需GPU配置(根据需求提供不同选择) 部署Falcon-40B、MPT-30B 和 Stable Diffusion 应该使用哪些 GPU 方案? 本文将对每一种模型部署所需GPU提供多种方案——性能型、均衡型、经济型。 通过阅读本文,就不必研究市面上所有型号的GPU,并测试判断下面这几种模型能否在选择的GPU上运行。 Stable Diffusion 经济型 1 * RTX 3090 或 1 * A5000 附表:一些GPU配置需求 场景 GPU配置要求 Nvidia A100s at the time.” ——8k张A100 训练 Falcon (40B) “384 A100 40GB GPUs” 微调尺寸的模型 “64 A100 40GB GPUs” 微调尺寸的模型4x A100 80gb” Stable

    4.3K51编辑于 2023-07-30
  • 来自专栏计算机视觉

    为什么模型训练需要GPU,以及适合训练模型GPU介绍

    文章目录 前言 1、为什么模型训练需要GPU,而非CPU 2、现在都有哪些合适的GPU适合训练,价格如何 前言 今天偶然看到一篇关于介绍GPU的推文,我们在复现代码以及模型训练过程中,GPU的使用是必不可少的 ,那么模型训练需要的是GPU,而不是CPU呢。 1、为什么模型训练需要GPU,而非CPU 总的来说,选择GPU而非CPU进行模型训练的主要原因是因为GPU在并行处理能力、高吞吐量和针对机器学习任务的优化方面的优势。 下面介绍几款常用的GPU: A100:非常适合大规模并行计算任务和模型训练,现在用的最多的卡之一,性价比高,1.5w美元左右,但是溢价严重,人民币价格区间10w~20w,运气好的话10w左右可以拿下。 4090:最后再来说一下4090显卡,4090显卡训练模型不行,因为模型训练需要高性能的通信,但4090的通信效率太低,但是进行推理可以。价格一般在2w左右。

    6.3K11编辑于 2024-04-25
  • 来自专栏AI分享

    GPU实战:低成本运行多模态模型

    随着多模态模型(如视觉-语言模型、文本-音频生成模型等)的快速发展,企业对高效、低成本的算力需求日益迫切。 无服务器 GPU 服务结合其弹性扩展和按需付费的特性,为开发者提供了部署多模态模型的理想平台。本文将从实战角度,探讨如何基于 无服务器 GPU 基础设施,低成本运行多模态模型。 环境配置模型部署优化方案弹性GPU计算集群构建(无服务器模式)在 Machine Learning服务中,可通过智能资源调度实现GPU资源的弹性供给。 推荐使用NCv3系列虚拟机(建议选择Standard_NC6s_v3型号,搭载NVIDIA Tesla V100 GPU),该配置在计算性能与成本效益间取得平衡,特别适合模型推理场景。 无服务器 GPU 通过弹性资源、精细化成本控制和多模态工具链,为开发者提供了高效运行模型的解决方案。

    4.5K11编辑于 2025-04-14
  • 来自专栏计算机视觉CV

    【玩转 GPU】本地部署模型--chatGLM(尝鲜篇)

    本文主要介绍ChatGLM-6B 的本地部署,提供更保姆级别的教程,让完全不懂技术的同学,也能在本地部署模型~在19年曾经尝试过使用GPT2进行代码补全,当时就被模型效果惊艳到啊,只是没想到短短3年多 ,模型效果提升这么快。 学不完,根本学不完....模型实在太火了,终于还是忍不住对它下手。今天介绍如何在本地部署模型尝鲜,后面有时间会持续出模型技术原理篇。 1 语言模型LLM语言模型(Large Language Model),是一种人工智能模型,旨在理解和生成人类语言。 # model = AutoModel.from_pretrained("THUDM/chatglm-6b-int4", trust_remote_code=True).float()# 使用GPU4

    27.5K289编辑于 2023-06-03
  • 来自专栏TechLead

    模型提供服务需要多少 GPU 显存?

    在几乎所有的 LLM 面试中,有一个问题总是会被提及:“为模型提供服务需要多少 GPU 显存?” 当你使用 GPT、LLaMA 或任何其他 LLM 时,了解如何估算所需的 GPU 内存是至关重要的。无论你是在处理一个 70 亿参数的模型,还是更大的模型,正确地配置硬件以支持这些模型至关重要。 估算 GPU 内存的公式 要估算为大型语言模型提供服务所需的 GPU 内存,可以使用以下公式: M 是 GPU 显存,以 GB(千兆字节)为单位。 P 是模型的参数数量。 4B 表示每个参数使用的 4 字节。 Q 是加载模型的位数(例如,16 位或 32 位)。 1.2 考虑了 20% 的额外开销。 分解公式 参数数量(P): 这代表了模型的大小。 例如,如果你正在使用一个具有 700 亿参数(70B)的 LLaMA 模型,那么这个值就是 700 亿。 每个参数的字节数(4B): 每个参数通常需要 4 个字节的内存。

    1.7K11编辑于 2024-09-20
  • 来自专栏后台技术汇

    模型应用之(4):Langchain架构与模型接入

    作为一个语言模型集成框架,LangChain 的用例与一般语言模型的用例有很大的重叠。 重叠范围包括文档分析和总结摘要, 代码分析和聊天机器人。 Langchain架构 LangChain工具 组件:模型包装器、聊天模型包装器、数据增强工具和接口链: 提供了标准接口,和数据平台和实际应用工具紧密集成 LangChain六模块 模块 核心作用 Agent作为高级模块,可调用其他所有模块功能 模型接入 接入示例 云服务和私有化模型优劣对比 维度 开发成本 算力成本 运维成本 数据安全 云厂商模型 较低,开箱即用 算力资源充足,模型性能好 &吞吐量较高 较低,提供云平台监控 安全性低 私有化模型 较高,自建模型网关、服务鉴权、可用性等 算力硬件投入成本高,模型性能较差低&吞吐量较低 较高,需要专业运维团队介入 安全性高,保密性强 小结: - 研发&测试环境:为了方便部署和测试,使用云服务 - 大客户生产环境:安全审核严格,大多数采用自建模型的方式 总结 LangChain 是什么?

    70810编辑于 2025-08-04
  • 来自专栏机器之心

    消费级GPU成功运行1760亿参数模型

    机器之心报道 机器之心编辑部 在消费级 GPU 上运行大规模模型是机器学习社区正面临的挑战。 例如,BLOOM-176B 需要在 8 个 80GB A100 GPU(每个约 15000 美元)上运行才能完成推理任务,而微调 BLOOM-176B 则需要 72 个这样的 GPU。 该方法不仅为异常值对模型性能的影响提供了新思路,还首次使在消费级 GPU 的单个服务器上使用非常模型成为可能,例如 OPT-175B/BLOOM。 这使得 FP16 数字的可表示范围远低于 FP32,面临溢出(试图表示一个非常的数字)和下溢(表示一个非常小的数字)的风险。 该研究首先在实验中用 2-byte BF16/FP16 半精度代替 4-byte FP32 精度,实现了几乎相同的推理结果。这样一来,模型减小了一半。

    1.7K10编辑于 2022-08-25
  • 来自专栏AI前沿技术

    模型训练—Nvidia GPU 互联技术全景图

    GPUDirect 经过多年的发展,如今已经包含四种技术,分别是: 1)GPUDirect Storage 2)GPUDirect RDMA 3)GPUDirect P2P (peer to peer) 4) PCIe 版本 传输速率 单通道(x1)带宽 双通道(x2)带宽 四通道(x4)带宽 八通道(x8)带宽 十六通道(x16)带宽 3.0 8 GT/s 0.98 GB/s 1.97 GB/s 3.94 高带宽:每条 NVLink的带宽可达300 GB/s (双向),远高于PCIe 的带宽(PCIe 4. 0 ×16的带宽为32GB/S)。 4,总结: 通过 GPUDirect Storage 技术实现了存储设备和GPU显存的直接访问,数据加载效率大大提升。通过GPUDirect P2P技术实现了GPU之间互联互通,可以快速访问。 例如,在训练千亿参数模型时,节点内8个GPU 使用 NVLink P2P同步梯度;节点间通过 RDMA将聚合后的梯度广播到其他服务器。

    78711编辑于 2026-01-13
  • 来自专栏大模型成长之路

    模型学习 | MINIGPT-4原理】

    MINIGPT-4: ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS在GPT4未开源的情况下,作者认为其表现优越是因为采用了最为先进的 LLM模型,因此,作者在BLIP2的基础上,将LLM模型替换为了Vicuna,同样也是通过一个线性映射层将图像表征映射为LLM的输入。 开源代码:https://minigpt-4.github.io/一、预训练方法预训练方法几乎和BLIP2模型一致,可以参考:【模型学习 | BLIP2原理】-腾讯云开发者社区-腾讯云1.1 Q-Former ; MINI-GPT4表现比BLIP2要强上许多? ① MiniGPT-4 使用的是 Vicuna(基于 LLaMA 的开源 ChatGPT 对话模型),具有更强的自然语言表达和指令理解能力;而BLIP-2 使用的 LLM 主要是 Flan-T5 或 OPT

    74010编辑于 2025-07-02
  • 买不起GPU,玩不起模型,ChatBI还有戏吗?

    从ChatGPT到各类开源模型,人工智能正从遥远的技术概念,变为触手可及的生产力工具。 根据Kodekx的成本分析,仅一块企业级H100GPU的初始硬件投资就高达2.5万至4万美元。 我们这些买不起GPU、玩不起模型的普通企业,是否就此与这场数据分析的革命无缘?答案是否定的。本文将揭示一条更具普适性的路径,证明即便不依赖昂贵的模型,企业依然可以实现高效、低成本的ChatBI。 根据GeeksforGeeks的硬件推荐,运行大型模型需要配备如NVIDIAA100或RTX4090等拥有海量VRAM的专业GPU,以及高性能CPU、容量内存和高速存储,整套系统的成本动辄数十万美元。 结语:务实的选择,即是最好的选择回到最初的问题:买不起GPU,玩不起模型,ChatBI还有戏吗?答案是肯定的。

    22510编辑于 2026-01-05
  • 来自专栏cuijianzhe

    配置openstack GPU直通

    这里我们将GPU带的4个设备的驱动都配置成vfio的一个原因是:默认情况下,统一pci端口的不同设备,会被分配到同一个iommu组,同一组的设备,只能同时被分配到一个虚拟机使用。 vfio-pci模块,编辑/etc/modules-load.d/openstack-gpu.conf,添加如下内容:#注意vfio_pci的写法,一旦写错,创建带GPU的虚拟机的时候,可能会无法直通到虚拟机或者非常慢 上的4个设备都直通到虚拟机,所以将4个设备信息都写上 #这里还要注意的是device_type,可用的有:type-PCI,type-PF,type-VF,要根据实际情况来:##2080的写法alias type-PCI"}alias = {"name":"nv2080bus","product_id":"1ad7","vendor_id":"10de","device_type":"type-PCI"}##T4的写法 参考这个文档:使用 GPU 在直通中启动虚拟机时出现问题 - 红帽客户门户 (redhat.com)

    4.3K10编辑于 2022-07-22
  • 来自专栏Python与算法之美

    使用GPU训练模型

    构建模型的3种方法(继承nn.Module基类,使用nn.Sequential,辅助应用模型容器) 训练模型的3种方法(脚本风格,函数风格,torchkeras.Model类风格) 使用GPU训练模型( 单GPU训练,多GPU训练) 本篇我们介绍使用GPU训练模型。 Pytorch中使用GPU加速模型非常简单,只要将模型和数据移动到GPU上。核心代码只有以下几行。 # 定义模型 ... 如果要使用多个GPU训练模型,也非常简单。只需要在将模型设置为数据并行风格模型。则模型移动到GPU上之后,会在每一个GPU上拷贝一个副本,并把数据平分到各个GPU上进行训练。核心代码如下。 《torch使用gpu训练模型》 https://colab.research.google.com/drive/1FDmi44-U3TFRCt9MwGn4HIj2SaaWIjHu?

    3.5K20发布于 2020-07-22
  • 来自专栏算法一只狗

    LLama4 原生多模态模型

    Meta最新发布了原生多模态模型 Llama 4,一经亮相即登上LMSYS模型排行榜第二名,仅次于Google的Gemini-2.5-pro,分差仅为22分,实力可见一斑。 硬件要求:单个NVIDIA H100 GPU即可运行,适合资源受限的应用场景。 2. Llama 4 Maverick(大杯): 参数规模:同样为170亿活跃参数,但总参数量达4000亿。 硬件要求:需多GPU联合运行,适用于计算资源丰富的环境。 3. Llama 4 Behemoth(超大杯): 参数规模:活跃参数2880亿,总参数量接近2万亿。 当前行业趋势多偏向小而高效的模型,Llama 4如此庞大的规模实属少见。 总结与展望Llama 4的发布,意味着Meta正式进入原生多模态模型竞争核心领域。

    77500编辑于 2025-05-01
  • 来自专栏云服务业务

    如何在腾讯云GPU服务器上部署私有化模型?附GPU简介

    本文讲如何用最低成本在腾讯云上部署专属模型?首先来了解部署专属模型前期的工作准备和腾讯云GPU服务器的简介。 服务器配置推荐如下: GPU:NVIDIA T4/A10/A100 CPU:32核以上 内存:64GB以上 软件环境: 操作系统:主流的操作系统如 Windows 10/11、Ubuntu 等都可以用于模型部署 Python 环境:Python 是模型开发和部署的核心语言。我们需要安装 Python 3.7 及以上版本。 腾讯云GPU服务器进行模型部署优势 性能优势 T4/A10/A100等多种GPU配置可选;支持GPU直通,性能损耗极小;网络带宽大,数据传输快速。 配置出站规则 建议仅开放必要的出站连接 如果需要下载模型或包,确保能访问相关地址 4.

    1.4K20编辑于 2025-09-04
  • H100 GPU如何加速语言模型与AI开发

    GPU提供的高并行处理能力对于处理神经网络的复杂计算至关重要。GPU设计用于同时执行不同的计算,从而加速任何语言模型的训练和推理。 H100 数据表变革模型训练第四代Tensor核心和具有FP8精度的Transformer引擎使H100在训练GPT-3(175B)模型时,速度比前几代快4倍。 H100 PCIe Gen 5 GPUH100 PCIe Gen 5配置拥有与H100 SXM5 GPU相同的功能,但功耗仅为350瓦。 显著特性配备多项先进特性的NVIDIA H100 NVL GPU,为语言模型的性能和可扩展性进行了优化。 H100 NVL GPU的这些先进特性增强了语言模型的性能和可扩展性,使其更易于主流使用且更高效。

    37110编辑于 2026-01-15
  • 来自专栏AI SPPECH

    42_语言模型的计算需求:从GPU到TPU

    以下是几个关键指标: 模型参数规模 顶级语言模型的参数规模已经突破了万亿级别,如GPT-4的某些变体和其他商业模型。这些模型的训练需要处理数百TB的文本数据,并执行超过10^24次浮点运算。 TPU v4:采用液冷设计,进一步提升了性能密度 TPU v5:优化了能效比,支持更灵活的精度配置 TPU v6:2025年最新一代,能效比上一代提升67%,计算能力大幅增强 这一持续的技术演进使得TPU 谷歌模型训练实践 谷歌利用TPU Pod系统训练了多个具有影响力的语言模型: PaLM:5400亿参数的语言模型,使用6144个TPU v4芯片训练 Gemini:谷歌最新的多模态模型,利用TPU ASIC提高灵活性:通过可配置单元提高ASIC的灵活性 混合架构:结合多种加速器的优势,如CPU+GPU+ASIC的异构系统 这种融合趋势使得不同类型加速器之间的界限变得越来越模糊,也为语言模型计算提供了更多优化空间 2025年,量化技术已经相当成熟,在保持模型性能的同时,能够将内存占用减少4-8倍,显著降低了语言模型的部署成本。

    75610编辑于 2025-11-16
  • 来自专栏openclaw系列

    OpenClaw怎么换模型?3步免费切换各种模型配置教程

    一句话总结:OpenClaw 本身不内置任何模型,而是通过灵活的配置机制对接各类模型服务。更换模型只需三步:选择目标模型获取 API Key、在配置文件中添加模型提供商、重启网关生效。 第一章:核心原理——OpenClaw 如何对接模型?1.1 为什么需要更换模型?OpenClaw 的核心价值在于“连接”——连接模型的思考能力与电脑的真实操作权限。 2.1 腾讯元宝模型配置(推荐中文场景)腾讯元宝基于混元模型,提供强大的中文理解和多模态能力,2026 年推出免费额度方案,大幅降低使用门槛。 选择更小的量化版本(如从 Q5_K_M 换为 Q4_K_M)选择更小的模型(如从 32B 换为 7B)确保 GPU 驱动正常,CPU 推理会明显变慢调整 Context Window 长度,过长的上下文会消耗大量显存 Q4:多个模型如何快速切换?

    11.7K43编辑于 2026-03-28
  • 来自专栏大模型应用

    模型应用:GPU的黑盒拆解:可视化看透模型并行计算的底层逻辑.67

    光线追踪核心:主打图形渲染,对模型无直接作用4. 寄存器文件与共享内存:提供快速数据存储,共享内存支持线程块内高效通信对模型算力的影响:SM 数量决定 GPU 并行算力上限;更多SM意味着更高的理论峰值算力张量核心是模型 INT4/INT8 量化加速的关键硬件 张量(Tensor Core):模型算力的核心 张量核心是 GPU 专门为矩阵乘法设计的超级工人,普通 CUDA 核心一次算 1 个乘法,张量核心一次能算4×4矩阵 × 4×4矩阵,是模型推理 四、GPU 并行计算的逻辑以模型推理的 QKV 矩阵乘法为例,拆解 GPU 的并行过程,就像工厂流水线:步骤 1:任务拆分(CPU→GPU) CPU 把Q×K^T这个大任务,拆成无数个4×4 小矩阵乘法以适配张量核心 初始化配置 ======================# 模拟模型推理的矩阵大小(14B模型注意力层常见维度)BATCH_SIZE = 32SEQ_LEN = 512HIDDEN_SIZE = 128

    24532编辑于 2026-04-05
  • 来自专栏机器之心

    致命幻觉问题、开发GPU替代品,模型还面临这10挑战

    机器之心编译 编辑:陈萍、梓文 大型语言模型,还有哪些挑战和机遇,这篇博客全都概括了。 ChatGPT、GPT-4 等的发布,让我们在见识到模型(LLM)的魅力后,伴随而来的是其所面临的各种挑战。 面对模型,到底有哪些需要解决的问题?成为 AI 领域重要的研究课题。 本文,计算机科学家 Chip Huyen 从 10 个方面入手,全面阐述 LLM 面临的挑战。 量化使用更少的位来表示参数,从而达到减小模型大小的目的,例如,有人将 32 位的浮点数改为 16 位,甚至是 4 位的浮点表示; 知识蒸馏:一种训练小模型(学生)模仿较大模型模型集合(教师)的方法; 开发 GPU 替代品 自 2012 年 AlexNet 发布以来,GPU 一直占据深度学习的主导地位。 在 GPU 出现之前,如果你想训练 AlexNet 这种规模的模型,必须使用数千个 CPU,而 GPU 几个就能搞定。 过去十年中,无论是大公司还是初创公司,都尝试为人工智能创建新的硬件。

    41850编辑于 2023-09-08
  • 来自专栏NLP算法工程师之路

    Deepin配置TF GPU环境

    使用conda安装GPU加速版本的TensorFlow时,将自动安装GPU支持所需的CUDA和CuDNN库。不需要再额外安装这些库了。 总体参照的是下面这篇博客: https://blog.csdn.net/aaronjny/article/details/79330727 第一步:检查 我自己电脑上是有GPU的,查看方式是安装nvidia-smi sudo apt-get install nvidia-smi 直接在终端运行nvidia-smi输出GPU信息。 安装Tf GPU版本 conda install tensorflow-gpu 测试 ? 正常输出显卡信息则安装完成。

    1.1K10发布于 2019-12-16
领券