搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏大数据文摘
2020年深度学习最佳GPU一览，看看哪一款最适合你！
太长不看版截至2020年2月，以下GPU可以训练所有当今语言和图像模型： RTX 8000：48GB VRAM，约5500美元 RTX 6000：24GB VRAM，约4000美元 Titan RTX ：24GB VRAM，约2500美元以下GPU可以训练大多数（但不是全部）模型： RTX 2080 Ti：11GB VRAM，约1150美元 GTX 1080 Ti：11GB VRAM，返厂翻新机约800 美元 RTX 2080：8GB VRAM，约720美元 RTX 2070：8GB VRAM，约500美元以下GPU不适合用于训练现在模型： RTX 2060：6GB VRAM，约359美元。具有较大VRAM的GPU具有更好的性能，因为使用较大的批处理大小有助于使CUDA内核饱和。具有更高VRAM的GPU可按比例实现更大的批处理大小。只懂小学数学的人都知道这很合理：拥有24 GB VRAM的GPU可以比具有8 GB VRAM的GPU容纳3倍大的批次。
1.4K10发布于 2020-03-05
来自专栏DeepHub IMBA
Llama-2 推理和微调的硬件要求总结：RTX 3080 就可以微调最小模型
我们先看看硬件配置：亚马逊的g3.xlarge M60是8GB的VRAM和2048个CUDA内核。3080是10Gb的GDDR6 VRAM，这两个GPU基本类似。 LLaMA-7B 建议使用至少6GB VRAM的GPU。适合此模型的GPU示例是RTX 3060，它提供8GB VRAM版本。 LLaMA-13B 建议使用至少10GB VRAM的GPU。这些gpu提供了必要的VRAM容量来有效地处理LLaMA-13B的计算需求。 LLaMA-30B 建议使用VRAM不低于20GB的GPU。 RTX 3080 20GB、A4500、A5000、3090、4090、6000或Tesla V100都是提供所需VRAM容量的gpu示例。这些gpu为LLaMA-30B提供了高效的处理和内存管理。 LLaMA-65B LLaMA-65B在与至少具有40GB VRAM的GPU。
7.9K70编辑于 2023-09-14
来自专栏一个会写诗的程序员的博客
FauxPilot ：可本地运行的开源 GitHub Copilot （Copilot Plugin）
因为 3.5 亿参数的模型仅需要 2GB VRAM；而稍高一个档次的 60 亿参数模型所需要的 VRAM 就大幅上涨到了 13GB，这就需要至少 RTX 3090 的显卡才能跑，就更不用说 160 亿的模型了 ) [4] codegen-2B-multi (7GB total VRAM required; multi-language) [5] codegen-6B-mono (13GB total VRAM (32GB total VRAM required; Python-only) [8] codegen-16B-multi (32GB total VRAM required; multi-language ) [4] codegen-2B-multi (7GB total VRAM required; multi-language) [5] codegen-6B-mono (13GB total VRAM (32GB total VRAM required; Python-only) [8] codegen-16B-multi (32GB total VRAM required; multi-language
5.9K20编辑于 2022-09-28
来自专栏技术成长
stable-diffusion-webui的优化配置
可以通过命令行参数启用许多优化：命令行参数解释--opt-sdp-attention在某些系统上可能比使用 xFormers 速度更快，但需要更多 VRAM。（非确定性）--opt-sdp-no-mem-attention在某些系统上可能比使用 xFormers 速度更快，但需要更多 VRAM。 --opt-split-attention-v1使用上述优化的旧版本，该版本不那么消耗内存（它将使用更少的 VRAM，但对您可以制作的图片的最大尺寸会受到更多限制）。）并这样一来，任何时候都只有一个位于 VRAM 中，而将其他的发送到 CPU RAM。 --lowvram对上面的进行更彻底的优化，将unet拆分成很多模块，VRAM中只保留一个模块。对性能来说是毁灭性的。
2.4K71编辑于 2023-11-03
来自专栏ATYUN订阅号
【指南】买家指南：挑选适合你的深度学习GPU
的VRAM很重要时，这张显卡比市场上的任何其他显卡都多。 Titan X的价格，你可以得到两个带有很多的功率和16 GB VRAM的GTX 1080。这个价格有相当大的VRAM，但稍微慢一些。如果你能以一个好的价格买到二手的该显卡，那就去买吧。，但是6 GB的VRAM是有限的。 K40有12 GB VRAM，K80的VRAM高达24 GB。从理论上讲，P100和GTX 1080 Ti在性能方面应该是一致的。不过，这种加密货币比较在每个基准中都有P100滞后。
1.7K90发布于 2018-03-05
来自专栏新智元
「古董」GPU也能跑DeepSeek同款GRPO！显存只需1/10，上下文爆涨10倍
在配备TRL+FA2的GRPO设置中，Llama 3.1（8B）在20K上下文长度下，训练需要510.8GB的VRAM。而Unsloth将VRAM减少了90%，降至仅54.3GB。减少长上下文90%VRAM 和使用Flash Attention 2的标准实现相比，Unsloth使用多种技巧，巧妙地把GRPO的VRAM使用量减少了90%多！这又节省了16GB的VRAM。这需要2*2字节*8（生成次数）*20K（上下文长度）*128256（词汇表大小）=78.3GB的VRAM。可以将vLLM的批次大小设置为8，但为了节省VRAM，在计算中将其保持为1。否则，需要20GB来存储KV缓存。
40700编辑于 2025-03-11
来自专栏机器之心
一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型
比如经过 QAT 优化后，Gemma 3 27B 的 VRAM 占用量可以从 54GB 大幅降至 14.1GB，使其完全可以在 NVIDIA RTX 3090 等消费级 GPU 上本地运行！这样带来的好处之一是加载模型权重所需的 VRAM 大幅减少： Gemma 3 27B：从 54 GB（BF16）降至仅 14.1 GB（int4） Gemma 3 12B：从 24 GB（BF16）缩减至仅运行该模型还需要额外的 VRAM 用于 KV 缓存，该缓存存储有关正在进行的对话的信息，并取决于上下文长度。现在看来，用户在消费级设备上就能运行更大、更强的 Gemma 3 模型，其中： Gemma 3 27B (int4)：现在可以轻松安装在单张 NVIDIA RTX 3090（24GB VRAM）或类似显卡上，本地就能运行最大的 Gemma 3 版本； Gemma 3 12B (int4)：可在 NVIDIA RTX 4060 GPU（8GB VRAM）等笔记本电脑 GPU 上高效运行，为便携式设备带来强大的
1.2K10编辑于 2025-04-21
来自专栏DeepHub IMBA
使用Mixtral-offloading在消费级硬件上运行Mixtral-8x7B
即使量化为4位，该模型也无法在消费级GPU上完全加载(例如，24 GB VRAM是不够的)。 Mixtral-8x7B是混合专家(MoE)。它由8个专家子网组成，每个子网有60亿个参数。 8位专家中只有2位在解码期间有效，因此可以将其余6位专家移动或卸载到另一个设备，例如CPU RAM，可以释放一些GPU VRAM。但在实践中这种操作是非常复杂的。 Mixtral-offloading提出了一个更有效的解决方案，以减少VRAM消耗，同时保持合理的推理速度。 -7x8B 为了验证Mixtral-offloading，我们使用Google Colab的T4 GPU，因为它只有15gb的VRAM可用。 “3”适用于具有16 GB VRAM的GPU。
89411编辑于 2024-01-17
来自专栏Java项目实战
AI绘画专栏之 SDXL AI动画手把手教程(34)
每次出完第一批需要第二批时重启存放模型位置E:\sd-webui-aki\sd-webui-aki-v4\extensions\sd-webui-animatediff\model看这里1.是什么GPU 内存优化，~12GB VRAM 当您增加批号时，您不必太担心，但是当您增加批号（在此扩展中，视频帧号）时，您确实需要担心您的VRAM。使用此扩展时，根本不需要更改批大小。问：我需要多少VRAM？答：目前，您可以通过 NVIDIA 3090 使用此扩展运行 WebUI。我不能保证 GPU 的任何其他变体。实际VRAM使用情况取决于您的图像大小和视频帧数。您可以尝试减小图像大小或视频帧数以减少VRAM的使用。默认设置消耗 12GB VRAM。稍后将添加更多VRAM信息。问：我可以生成视频而不是 GIF 吗？答：很遗憾，你不能。
1.3K70编辑于 2023-11-16
来自专栏DeepHub IMBA
torch.compile 加速原理：kernel 融合与缓冲区复用
每个操作至少要做三次内存访问：从 VRAM 读输入张量、把中间结果写回 VRAM、再从 VRAM 读权重。所以问题的本质在于：独立的操作没法融合内存传输，造成大量冗余的 VRAM 访问。生产环境下情况更糟。即时执行要六次 VRAM 传输，TorchInductor 把它们融合成一个 Triton kernel：先把 a、b、c 的分块加载到片上 SRAM（共享内存），在寄存器里算矩阵乘法，加法和 ReLU 也在寄存器里做完，最后只把结果写回 VRAM。
17910编辑于 2026-02-27
来自专栏福大大架构师每日一题
ollama v0.11.4 重磅更新：工具调用与推理能力全面升级的技术解析
GPU资源管理：针对gpt-oss模型的VRAM使用进行优化，提升资源利用率这些改进使得Ollama在复杂任务处理、多步骤推理和资源受限环境下的表现更加出色，为开发者构建基于LLM的应用程序提供了更强大的基础支撑优化 v0.11.4版本针对gpt-oss模型的VRAM使用进行了专门优化，解决了在GPU和CPU之间或跨多个GPU分割模型时的内存管理问题。资源利用率提升：更高效的VRAM使用允许在相同硬件上运行更大的模型或处理更长的上下文 2. 成本效益：企业用户可以在现有硬件基础设施上实现更高的性能产出比 3. . // Low VRAM模式基于总VRAM(非空闲)触发某些模型的上下文长度减少 var lowVRAMThreshold uint64 = 20 * format.GibiByte // 在服务器初始化时检测 () } if totalVRAM < lowVRAMThreshold { s.lowVRAM = true slog.Info("entering low vram mode",
85010编辑于 2025-08-13
来自专栏福大大架构师每日一题
ollama v0.17.0 更新：OpenClaw 一键自动安装、Web 搜索支持、全新 Context 动态分配与 Tokenizer 性能大幅优化！
这一次更新可谓意义重大，不仅引入了全新的 OpenClaw 自动化集成与安装能力，还针对核心 Tokenizer 性能、VRAM 动态上下文分配、系统配置迁移逻辑、Web 搜索插件等功能进行了深层次优化 v0.17.0 发布日期： 2026 年 2 月 24 日代号： OpenClaw 核心变化： • OpenClaw 可通过 Ollama 自动安装、自动配置 • 云模型自动启用 Web 搜索能力 • 新的 VRAM 四、VRAM 动态上下文长度：让模型智能适配显存此前版本中，Ollama 使用固定 4096 context length。 v0.17.0 版本则引入了全新的基于 VRAM 动态上下文机制，上下文长度会自动根据可用显存进行推算。五、数据库 Schema 升级：从 v13 到 v14 当前版本号： 14 变化内容： • 原字段 context_length 默认值从 4096 改为 0； • 0 代表开启 VRAM 动态推理上下文功能
2.8K10编辑于 2026-03-04
来自专栏存储公众号：王知鱼
WD：Flash加速AI推理在端侧落地
通过将部分LLM加载到GPU VRAM中，可以减少对系统内存的需求。 4. 利用闪存低延迟和高速度，可以实现更高效的参数加载和计算。 5. 端侧toC市场对价格非常敏感，提高VRAM以支持客户端推理的方式被认为是不经济的。下图示意，RTX 2000 一张显卡的价格接近左图PC的一半。基于层的组成结构，我们可以让部分LLM驻留在GPU的VRAM中。通过从闪存中流式加载参数到VRAM，同时仍然保持可接受的推理性能，并提出了一些优化方法。问题： • 我们能否通过从闪存中流式加载参数到VRAM，同时保持可接受的推理性能？选择性加载参数：如果某些神经元的权重在推理过程中不被激活，就可以不加载这些权重，特别是在存储资源有限的设备上（如GPU的VRAM）。
56610编辑于 2025-02-11
来自专栏机器之心
DeepSeek用的GRPO占用大量内存？有人给出了些破解方法
然而，这会显著增加 VRAM 的消耗。影响 VRAM 的一些因素要对所有影响显存（VRAM）使用的因素进行全面的超参数验证，需要进行大量的实验。简单起见，这里只指出了需要注意的设置，以及实验中使用的具体数值。 gradient_accumulation_steps=4，优化器是另一个占用大量 VRAM 的地方。此参数决定了我们将存储的梯度以帮助优化器进行其「爬山」过程。 max_prompt_length=256，如果你想训练模型拥有更大上下文的推理能力，将不得不增加 VRAM。GSM8K 的提示相对较小，适合此测试。对 VRAM 使用的粗略估算如果你正在使用 FP16 精度进行训练，以下是一些简单的估算方法，可以帮助你了解内存主要用在了哪些地方：模型参数：每个参数占用 2 字节。
1.1K10编辑于 2025-02-08
来自专栏福大大架构师每日一题
ComfyUI v0.12.2 发布——新增 4B ACE Step 1.5 模型支持，修复多项稳定性问题！
更新亮点二：显存管理优化，修复 Dynamic VRAM 内存泄漏在 comfy/model_management.py 中，移除了空缓存时对 Aimdo 的豁免处理逻辑，修复了可能的显存泄漏问题。 ⚡ 更新亮点三：Dynamic VRAM 逻辑增强，优化版本兼容提示 main.py 中的 Dynamic VRAM 初始化逻辑得到改进： • 新增 Pytorch 版本检测机制：当 Pytorch 版本低于 lm_model 参数 llama.py 新增 Qwen3_4B_ACE15_lm_Config 并整合 BaseQwen3 结构 main.py 增强 Pytorch 版本检测与 Dynamic VRAM ComfyUI v0.12.2 是一次针对模型支持与内存管理机制的重要优化版本： • ✅ 新增 4B ACE Step 1.5 模型支持 • ✅ 修复显存泄漏问题 • ✅ 优化 Dynamic VRAM
39510编辑于 2026-02-09
来自专栏月亮与二进制
深度学习GPU工作站配置参考
TFLOPS（teraFLOPS FLoating-point Operations Per Second每秒浮点运算次数） VRAM（显存） CUDA Cores 目前英伟达产品线主要 GPU Titan V 参数现存（VRAM）：12GB 内存带宽：653GB/s 处理器：5120个CUDA核心@1200MHz 价格：22999元 Titan V成为新旗舰，性能较XP有了提升，完整的 Titan XP 参数：显存（VRAM）：12 GB 内存带宽：547.7 GB/s 处理器：3840 个 CUDA 核心 @ 1480 MHz（约 5.49 亿 CUDA 核心频率）英伟达官网价格 GTX 1080 Ti 参数：显存（VRAM）：11 GB 内存带宽：484 GB/s 处理器：3584 个 CUDA 核心 @ 1582 MHz（约 5.67 亿 CUDA 核心频率）英伟达官网价格 GTX 1070 Ti 参数：显存（VRAM）：8 GB 内存带宽：256 GB/s 处理器：2432 个 CUDA 核心 @ 1683 MHz（约 4.09 亿 CUDA 核心频率）英伟达官网价格
5.2K10发布于 2021-11-23
来自专栏山行AI
—款能将各类文件转换为 Markdown 格式的AI工具—Marker
•如果使用 GPU，请将 INFERENCE_RAM 设置为你的 GPU VRAM（每个 GPU）。例如，如果你有 16 GB 的 VRAM，设置 INFERENCE_RAM=16。如果你注意到任务因 GPU 内存不足错误而失败，你可以配置 VRAM_PER_TASK 来调整这一点。•检查 marker/settings.py 中的其他设置。更高的数字将占用更多的 VRAM 和 CPU，但处理速度更快。默认设置为 1。•--max_pages 是要处理的最大页面数。省略此项以转换整个文档。如果你使用 GPU，那么并行性不会超过 INFERENCE_RAM / VRAM_PER_TASK。•--max 是要转换的最大 pdf 数量。省略此项以转换文件夹中的所有 pdf。每个 GPU 的并行性不会超过 INFERENCE_RAM / VRAM_PER_TASK。•MIN_LENGTH 是从 pdf 中提取的字符数量的最小值，才会被考虑进行处理。
5K10编辑于 2023-12-06
来自专栏DeepHub IMBA
普通电脑也能跑AI：10个8GB内存的小型本地LLM模型推荐
随着模型量化技术和优化算法的快速发展，现在可以在配置有限的个人计算设备上部署强大的LLM系统，即使在RAM或VRAM容量不足8GB的环境下也能实现良好的性能表现。在实际部署过程中，需要重点关注以下几个技术要点： VRAM（图形处理器显存）与RAM（系统内存）在LLM推理任务中扮演不同的角色。 VRAM具有更高的数据传输带宽，是LLM推理的理想存储介质，而系统RAM虽然传输速度相对较慢，但通常具有更大的容量空间。为了获得最佳的推理性能，建议优先将模型数据加载到VRAM中进行处理。 R1 7B的Q4_K_M量化版本（文件大小4.22GB，内存需求6.72GB）以及R1 8B版本（文件大小4.9GB，VRAM需求6GB）都能够在8GB内存环境中稳定运行。该模型经过专门的代码领域微调，在仅需3.8GB存储空间（6GB VRAM）的条件下，为本地代码补全和开发工具集成提供了出色的性能表现。
3.8K10编辑于 2025-08-20
来自专栏Java项目实战
AI绘画专栏之statble diffusion ComfyUI从入门到放弃(十五)
命令行选项：使其在vram小于3GB vram的GPU上运行（在具有低vram的GPU上自动启用）--lowvram即使您没有具有以下功能的 GPU，也可以正常工作：（慢）--cpu可以加载 ckpt、
1.6K30编辑于 2023-11-13
来自专栏DeepHub IMBA
Stable Diffusion在各种显卡上的加速方式测试，最高可以提速211.2%
2、更大的VRAM允许缓存更多的模型，减少模型加载时间，并显著加快图像生成过程。 RTX 3090和RTX 4090都有24GB的VRAM，但如果稳定扩散web是基于VRAM使用进行优化，RTX 3090可能在VRAM成本上有优势。
2.8K10编辑于 2023-08-30

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

2020年深度学习最佳GPU一览，看看哪一款最适合你！

Llama-2 推理和微调的硬件要求总结：RTX 3080 就可以微调最小模型

FauxPilot ：可本地运行的开源 GitHub Copilot （Copilot Plugin）

stable-diffusion-webui的优化配置

【指南】买家指南：挑选适合你的深度学习GPU

「古董」GPU也能跑DeepSeek同款GRPO！显存只需1/10，上下文爆涨10倍

一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

使用Mixtral-offloading在消费级硬件上运行Mixtral-8x7B

AI绘画专栏之 SDXL AI动画手把手教程(34)

torch.compile 加速原理：kernel 融合与缓冲区复用

ollama v0.11.4 重磅更新：工具调用与推理能力全面升级的技术解析

ollama v0.17.0 更新：OpenClaw 一键自动安装、Web 搜索支持、全新 Context 动态分配与 Tokenizer 性能大幅优化！

WD：Flash加速AI推理在端侧落地

DeepSeek用的GRPO占用大量内存？有人给出了些破解方法

ComfyUI v0.12.2 发布——新增 4B ACE Step 1.5 模型支持，修复多项稳定性问题！

深度学习GPU工作站配置参考

—款能将各类文件转换为 Markdown 格式的AI工具—Marker

普通电脑也能跑AI：10个8GB内存的小型本地LLM模型推荐

AI绘画专栏之statble diffusion ComfyUI从入门到放弃(十五)

Stable Diffusion在各种显卡上的加速方式测试，最高可以提速211.2%

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐