搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏JNing的专栏
监视显存
监视显存使用情况 watch [options] command 每10秒更新一次显存使用情况 watch -n 10 nvidia-smi ---- ----
1.3K30发布于 2018-09-28
Torch 中显存回收节省显存的方法
在进行模型推理时，需要考虑如何有效地利用和管理GPU显存。以下总结了常用的节省显存的方法。将变量从显存释放 1. 这样可以更有效地利用显存，因为一些显存是用来存储模型的参数和中间结果的，而这些显存的使用量通常不会随着批量大小的增加而增加。将模型和数据移动到CPU内存：如果你的模型和数据都在GPU显存中，那么你可以考虑在完成推理后将它们移动到CPU内存，以释放显存。这是因为PyTorch使用了一种称为"缓存分配器"的机制来管理显存，这种机制可以减少显存的分配和释放操作，从而提高效率。当你删除一个Tensor并释放了它占用的显存后，这部分显存并不会立即返回给操作系统，而是被缓存分配器保留下来，以便在后续的操作中重复使用。
1.9K10编辑于 2024-07-01
来自专栏深度学习那些事儿
再次浅谈Pytorch中的显存利用问题(附完善显存跟踪代码)
前言之前在浅谈深度学习:如何计算模型以及中间变量的显存占用大小和如何在Pytorch中精细化利用显存中我们已经谈论过了平时使用中显存的占用来自于哪里，以及如何在Pytorch中更好地使用显存。在这篇文章中，我们借用Pytorch-Memory-Utils这个工具来检测我们在训练过程中关于显存的变化情况，分析出我们如何正确释放多余的显存。如何去释放不需要的显存。首先，我们在下段代码中导入我们需要的库，随后开始我们的显存检测程序。 Tensor占用大，我们暂时将次归结为Pytorch在开始运行程序时需要额外的显存开销，这种额外的显存开销与我们实际使用的模型权重显存大小无关。其实原因很简单，除了在程序运行时的一些额外显存开销，另外一个占用显存的东西就是我们在计算时候的临时缓冲值，这些零零总总也会占用一部分显存，并且这些缓冲值通过Python的垃圾收集是收集不到的。
2.4K50编辑于 2023-10-19
来自专栏AIUAI
GPU 显存 - Caffe 内存优化
Caffe - 显存优化 1. 测试了一下, ResNet101 相对于官方 caffe, 能够明显节省显存占用, batchsize 可以增加很多. 显存优化的 Caffe 主要实现的功能: memory multiloading 在深度网络训练和测试时,可以显著地节省内存. 训练时,节省一半内存; 测试时, 使用 95% 的内存. 在训练深度网络时, GPU显存资源是有限的.
2.8K60发布于 2018-05-17
来自专栏JNing的专栏
【tensorflow】设置显存开销
问题一般大家在跑tf时，单个程序往往会占满整块GPU的所有显存。但是实际上，程序很可能并不需要那么大的显存空间。改进方案通过 tf.ConfigProto().gpu_options.allow_growth=True来告诉程序，只需占用实际所需的显存即可： # ---------------- session True sess = tf.Session(config=config) 如果这里把 config.gpu_options.allow_growth设置为False，那么程序就会默认把整块卡的所有显存占满
1.2K10发布于 2020-03-17
来自专栏CSDNToQQCode
win11怎么看显存——win11如何看显存
显存查看方法1、 1、快捷键【Ctrl+Shift+ESC】打开【任务管理器】 2、点击左侧的性能显存查看方法2、在Windows 11在Windows 11中查看显存的方法如下： 1 在显卡属性窗口中，适配器下，就可以查看显存信息。显存查看方法3、此外，还可以使用DirectX诊断工具来查看显存。在“显示”选项卡中，找到“显存”一项，即可查看显存信息。以上两种方法都可以帮助您在Windows 11中查看显存信息。如果还有其他问题，欢迎随时提问。显存对AI的重要意义显存是显卡中存储图像数据的关键组成部分，对AI具有重要意义，主要体现在：显存决定了计算机在处理图像时能够存储和操作的数据量大小。在AI绘图中，需要频繁读写显存中的数据，因此高带宽的显存对于实时绘图和复杂计算非常重要。因此，显存对于AI应用来说是非常重要的，尤其是在需要大量处理和操作图像数据的场合。
17.7K11编辑于 2023-11-29
来自专栏容器计算
tf_cnn_benchmark 显存问题
1 Overview 在测试 vGPU 的功能的时候，给容器分配了半张 GPU 卡，然后想用 Tensorflow Benchmark 测试一下，却发现半张 V100 32GB 显存从一开始就被占满了，关于如何限制 GPU 显存的使用量，可以参考官方的记录。为了能正常使用办张卡，也就是 16 GB 的显存，我希望可以注入一个 Config 类似如下。 per_process_gpu_memory_fraction=0.5) sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options)) 这样我的程序就只会用到半张卡的显存 xla=True --gpu_memory_frac_for_testing=0.5 3 Summary per_process_gpu_memory_fraction 参数可以设置 GPU 内进程使用显存最大的比例
1.4K20发布于 2020-08-05
来自专栏IT杂症
v470修改显存大小
准备工作备份 /System/Library/Extensions/AppleIntelSNBGraphicsFB.kext/
81110发布于 2021-11-08
来自专栏深度学习和计算机视觉
深度学习中GPU和显存分析
点击上方“小白学视觉”，选择加"星标"或“置顶” 编者荐语显存占用和GPU利用率是两个不一样的东西，显卡是由GPU计算单元和显存等组成的，显存和GPU的关系有点类似于内存和CPU的关系。 nvidia-smi的输出这是nvidia-smi命令的输出，其中最重要的两个指标：显存占用 GPU利用率显存占用和GPU利用率是两个不一样的东西，显卡是由GPU计算单元和显存等组成的，显存和GPU 这么看来显存占用就是W和Y两个数组？并非如此！！！下面细细分析。 1.2.1 参数的显存占用只有有参数的层，才会有显存占用。这部份的显存占用和输入无关，模型加载完成之后就会占用。 1.2.2 梯度与动量的显存占用举例来说，优化器如果是SGD：这时候还需要保存动量，因此显存x3 如果是Adam优化器，动量占用的显存更多，显存x4 总结一下，模型中与输入无关的显存占用包括：（因为不需要执行优化）深度学习中神经网络的显存占用，我们可以得到如下公式：显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用可以看出显存不是和batch-size简单的成正比
85210编辑于 2025-03-24
来自专栏DeepHub IMBA
如何估算transformer模型的显存大小
在微调GPT/BERT模型时，会经常遇到“ cuda out of memory”的情况。这是因为transformer是内存密集型的模型，并且内存要求也随序列长度而增加。所以如果能对模型的内存要求进行粗略的估计将有助于估计任务所需的资源。
2.3K30编辑于 2022-11-11
来自专栏新智元
显存只需110，上下文爆涨10倍
编辑：KingHZ 【新智元导读】开源微调神器Unsloth带着黑科技又来了：短短两周后，再次优化DeepSeek-R1同款GRPO训练算法，上下文变长10倍，而显存只需原来的1/10！这次彻底把推理模型训练显存打下来了！这次把GRPO训练推理模型的上下文变长10倍，同时需要的显存少了90%。使用最新的Unsloth，只要5GB显存就能训练自己的推理模型，而且Qwen2.5-1.5B不会损失准确率。 5GB显存什么概念呢？ 16年开始发售的GPU比如GTX 1060的显存都有8GB。与其他GRPO LoRA/QLoRA实现相比，即使是基于Flash Attention 2（FA2）的实现，Unsloth新推出的高效GRPO算法上下文长度增加了10倍，同时使用的VRAM只要10%。
40700编辑于 2025-03-11
来自专栏机器学习AI算法工程
深度学习中GPU和显存分析
显存占用越多，程序越快？显存占用大小和batch size大小成正比？ nvidia-smi的输出这是nvidia-smi命令的输出，其中最重要的两个指标：显存占用 GPU利用率显存占用和GPU利用率是两个不一样的东西，显卡是由GPU计算单元和显存等组成的，显存和GPU 1.2.1 参数的显存占用只有有参数的层，才会有显存占用。这部份的显存占用和输入无关，模型加载完成之后就会占用。，占用的显存大小基本与上述分析的显存差不多（会稍大一些，因为其它开销）。（因为不需要执行优化）深度学习中神经网络的显存占用，我们可以得到如下公式：显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用可以看出显存不是和batch-size简单的成正比
4.2K11发布于 2020-12-15
来自专栏AI研习社
深度学习中 GPU 和显存分析
显存占用越多，程序越快？显存占用大小和 batch size 大小成正比？显存分析 1.1 存储指标 1Byte = 8 bit 1K = 1024 Byte 1M = 1024 K 1G = 1024 M 1T = 1024 G 10 K = 10*1024 Byte 除了 1Byte = 8 bit 1KB = 1000 Byte 1MB = 1000 KB 1GB = 1000 MB 1TB = 1000 GB 10 KB = 10000 Byte K、M，G，T是以（因为不需要执行优化）深度学习中神经网络的显存占用，我们可以得到如下公式：显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用可以看出显存不是和 batch-size 简单的成正比）（一般为原来的 10－15%） 2.4 常用模型显存 / 计算复杂度 / 准确率去年一篇论文 (arxiv.org/abs/1605.07678https://http://link.zhihu.com
7.9K100发布于 2018-03-16
来自专栏Dechin的专栏
关于python中显存回收的问题
而且此时已经按照Jax的官方说明配置了XLA_PYTHON_CLIENT_PREALLOCATE这个参数为false，也就是不进行显存的预分配（默认会分配90%的显存空间以供使用）。 00000000:03:00.0 On | N/A | | 30% 43C P8 20W / 125W | 1260MiB / 7979MiB | 10% 4000 On | 00000000:A6:00.0 Off | N/A | | 30% 34C P8 7W / 125W | 10MiB 00000000:03:00.0 On | N/A | | 30% 42C P8 20W / 125W | 1238MiB / 7979MiB | 10% 总结概要在使用一些python的GPU模块，或者写CUDA时，有时会发现显存被无端占用的场景，即时执行了cudaFree()或者python的del操作，也无法消除这一块的显存占用。
3.3K10编辑于 2021-12-14
来自专栏数据派THU
如何估算transformer模型的显存大小
来源：DeepHub IMBA本文约1200字，建议阅读6分钟本文为你介绍神经网络的内存计算方法。在微调GPT/BERT模型时，会经常遇到“ cuda out of memory”的情况。这是因为transformer是内存密集型的模型，并且内存要求也随序列长度而增加。所以如果能对模型的内存要求进行粗略的估计将有助于估计任务所需的资源。如果你想直接看结果，可以跳到本文最后。不过在阅读本文前请记住所有神经网络都是通过反向传播的方法进行训练的，这一点对于我们计算内存的占用十分重要。 total_me
3.2K20编辑于 2022-09-14
来自专栏AIUAI
Keras - GPU ID 和显存占用设定
因此, 需要类似于 Caffe 等框架的可以设定 GPU ID 和显存自动按需分配. 实际中发现, Keras 还可以限制 GPU 显存占用量. 这里涉及到的内容有: GPU ID 设定 GPU 显存占用按需分配 GPU 显存占用限制 GPU 显存优化 1. GPU ID 设定 #! GPU 显存占用按需分配 #! GPU 显存占用限制 #! 设定 GPU 显存占用比例实际上是避免一定的显存资源浪费. 4. GPU ID 设定与显存按需分配 #!
2.2K160发布于 2018-05-17
来自专栏计算机技术-参与活动
显存：存储，GPU：计算；Pipeline Parallelism（管道并行）
同时，文章还讨论了数据传输中的安全性问题，提出了不依赖加密算法的数据传输安全方案目录显存：存储，GPU：计算流水线切分策略：（数据并并，多头并行，单头MLP切片）存储（显存）和计算（GPU）负载不均衡的问题：存储，GPU：计算流水线切分策略：（数据并并，多头并行，单头MLP切片）显存与存储：显存（Video Memory或Graphics Memory）是GPU上的专用内存，用于存储图形数据、纹理、帧缓冲区等在图形处理和并行计算任务中，显存扮演着关键角色，因为它需要快速访问和存储大量数据。存储（显存）和计算（GPU）负载不均衡的问题1,2,3,4,5指的计算任务（数据切分）大方块代表GPU计算黄色代表显存存储和计算负载不均衡的问题主要出现在大规模并行计算环境中，尤其是在训练大型语言模型时但是，如果我们使用GPipe和1F1B调度机制我们可以将数据分割成10个微批次，并在4个GPU上进行训练。在预热阶段，每个GPU将处理2个微批次的前向传递。
73321编辑于 2024-11-26
来自专栏GPUS开发者
明明模型很小，为啥 GPU 显存却被吃满？一文讲透深度学习显存真相
今天就拆解小模型狂吃显存的底层逻辑，再给你实用优化方案。一、显存四大“吞金兽”：模型只是冰山一角我们常说的“模型大小”，仅指权重和偏置，这只是训练显存占用的冰山一角。 10亿参数模型：权重仅需4GB 但训练要算梯度，每个权重对应1个梯度，梯度同样占4字节，直接翻倍显存：权重4GB + 梯度4GB = 8GB 这是训练的基础开销，躲不掉。 2. 标准Adam下，1个参数总开销：权重4B + 梯度4B + 动量4B + 方差4B = 16字节 10亿参数模型，光权重、梯度、优化器状态就占16GB，是纯权重的4倍！ 3. 框架向系统申请/释放显存很慢，所以PyTorch用完显存不还给系统，留着下次复用。nvidia-smi显示的是“已预留显存”，而非“实际占用显存”。：推理：只存权重，显存小训练：要算梯度、存激活、挂优化器，显存天然暴涨小模型狂吃显存不是bug，是深度学习的计算本质决定的。
24710编辑于 2026-03-27
来自专栏深度学习思考者
开源框架MXNet | 环境变量配置（显存）
上执行内存复制作业的并发线程的最大数量，默认值1 MXNET_CPU_WORKER_NTHREADS MXNET_CPU_PRIORITY_NTHREADS MXNET_CPU_NNPACK_NTHREADS 二显存选项 MXNET_BACKWARD_DO_MIRROR=1 将会节省30%~50%的显存, 保存95%的运行速度。 Mxnet恢复训练 Mxnet可以通过断点恢复训练，命令如下： python train_end2end.py --network resnet --gpu 0 --resume --begin_epoch 10
1.5K90发布于 2018-01-02
来自专栏AI前沿技术
数据并行｜显存 “减负” 从 DDP 到 FSDP
DDP在每个GPU上拷贝一份模型状态，大量的显存被冗余状态占用。FSDP借鉴零冗余优化器的思想对模型状态进行分片后，由不同的GPU负责维护，使用数据并行训练超大规模的模型成为可能。 FSDP DDP数据并行中每个GPU设备都拷贝了一份模型状态副本，冗余的拷贝使得显存开销巨大。 4，总结特性 DDP FSDP 目标多级多卡分布式训练，消除中心节点瓶颈超大规模训练，通过分片解决显存不足问题并行维度纯数据并行数据并行+模型参数并行内存占用冗余存储：每个GPU保存完整的模型、梯度、优化器状态无冗余存储：模型参数、梯度、优化器状态分片，显存降低至 1/N 通信机制多进程all-reduce同步梯度，使用 NCCL/GLOO后端分片参数动态拉取 + All-Gather
28810编辑于 2026-01-13

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

监视显存

Torch 中显存回收节省显存的方法

再次浅谈Pytorch中的显存利用问题(附完善显存跟踪代码)

GPU 显存 - Caffe 内存优化

【tensorflow】设置显存开销

win11怎么看显存——win11如何看显存

tf_cnn_benchmark 显存问题

v470修改显存大小

深度学习中GPU和显存分析

如何估算transformer模型的显存大小

显存只需110，上下文爆涨10倍

深度学习中GPU和显存分析

深度学习中 GPU 和显存分析

关于python中显存回收的问题

如何估算transformer模型的显存大小

Keras - GPU ID 和显存占用设定

显存：存储，GPU：计算；Pipeline Parallelism（管道并行）

明明模型很小，为啥 GPU 显存却被吃满？一文讲透深度学习显存真相

开源框架MXNet | 环境变量配置（显存）

数据并行｜显存 “减负” 从 DDP 到 FSDP

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐