首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏JNing的专栏

    监视显存

    监视显存使用情况 watch [options] command 每10秒更新一次显存使用情况 watch -n 10 nvidia-smi ---- ----

    1.3K30发布于 2018-09-28
  • Torch 中显存回收节省显存的方法

    在进行模型推理时,需要考虑如何有效地利用和管理GPU显存。以下总结了常用的节省显存的方法。 将变量从显存释放 1. 这样可以更有效地利用显存,因为一些显存是用来存储模型的参数和中间结果的,而这些显存的使用量通常不会随着批量大小的增加而增加。 output = model(batch) outputs.append(output.cpu()) # move output to CPU memory 6. 将模型和数据移动到CPU内存:如果你的模型和数据都在GPU显存中,那么你可以考虑在完成推理后将它们移动到CPU内存,以释放显存。 这是因为PyTorch使用了一种称为"缓存分配器"的机制来管理显存,这种机制可以减少显存的分配和释放操作,从而提高效率。

    1.9K10编辑于 2024-07-01
  • 来自专栏ETU-LINK

    40G光模块方案:10G至40G网络的布线方法

    今天给大家分享如何通过40G光模块将10G网络升级至40G网络,首先要根据应用场景选择合适的40G光模块以及采用有效的40G升级方案,接下来易天光通信(ETU-LINK)给你详细介绍10G至40G网络的光模块解决方案 选择40G光模块的几个因素 在10G到40G升级之前,首先会面临网络产品选型的问题。怎么选择40G光模块产品和相应网络产品呢? 除了要考虑投资成本、运维管理、带宽要求、兼容40G等因素外,在各方面的因素和需求得到平衡之后,选择已有完善的行业标准和规范、技术成熟而通用的产品也是十分重要的。 10G至40G网络升级方案 如今大多数40G光纤网络都符合IEEE802.3ba的标准,采用平行光纤传输的方式,利用预端接12芯或24芯MPO光缆是下一代数据中心的主要光纤连接方案,也是10G至40G的升级方案的核心 3个40G光模块,从而完成40G信号的传输。

    1.6K60发布于 2019-02-20
  • 来自专栏深度学习那些事儿

    再次浅谈Pytorch中的显存利用问题(附完善显存跟踪代码)

    前言 之前在浅谈深度学习:如何计算模型以及中间变量的显存占用大小和如何在Pytorch中精细化利用显存中我们已经谈论过了平时使用中显存的占用来自于哪里,以及如何在Pytorch中更好地使用显存。 在这篇文章中,我们借用Pytorch-Memory-Utils这个工具来检测我们在训练过程中关于显存的变化情况,分析出我们如何正确释放多余的显存。 如何去释放不需要的显存。 首先,我们在下段代码中导入我们需要的库,随后开始我们的显存检测程序。 > + | 1 * Size:(1000, 4096) | Memory: 16.384 M | <class 'torch.nn.parameter.Parameter'> + | 6 Tensor占用大,我们暂时将次归结为Pytorch在开始运行程序时需要额外的显存开销,这种额外的显存开销与我们实际使用的模型权重显存大小无关。

    2.4K50编辑于 2023-10-19
  • 来自专栏AIUAI

    GPU 显存 - Caffe 内存优化

    Caffe - 显存优化 1. 测试了一下, ResNet101 相对于官方 caffe, 能够明显节省显存占用, batchsize 可以增加很多. 显存优化的 Caffe 主要实现的功能: memory multiloading 在深度网络训练和测试时,可以显著地节省内存. 训练时,节省一半内存; 测试时, 使用 95% 的内存. 在训练深度网络时, GPU显存资源是有限的.

    2.8K60发布于 2018-05-17
  • 来自专栏JNing的专栏

    【tensorflow】设置显存开销

    问题 一般大家在跑tf时,单个程序往往会占满整块GPU的所有显存。 但是实际上,程序很可能并不需要那么大的显存空间。 改进方案 通过 tf.ConfigProto().gpu_options.allow_growth=True来告诉程序,只需占用实际所需的显存即可: # ---------------- session True sess = tf.Session(config=config) 如果这里把 config.gpu_options.allow_growth设置为False,那么程序就会默认把整块卡的所有显存占满

    1.2K10发布于 2020-03-17
  • 来自专栏CSDNToQQCode

    win11怎么看显存——win11如何看显存

    GeForce RTX 3070 Ti:显存达到8GB GDDR6X,位宽为256bit,Boost频率为1770MHz。 GeForce RTX 3060 Ti:拥有8GB GDDR6显存,位宽256bit,Boost频率可达1665MHz。 GeForce RTX 3050:拥有8GB GDDR6显存,位宽128bit,Boost频率可达1777MHz。 AMD Radeon RX 6900 XT:拥有16GB GDDR6显存,位宽256bit,游戏频率可达2015MHz。 AMD Radeon RX 6800 XT:拥有16GB GDDR6显存,位宽256bit,游戏频率可达到2105MHz。

    17.7K11编辑于 2023-11-29
  • 来自专栏容器计算

    tf_cnn_benchmark 显存问题

    1 Overview 在测试 vGPU 的功能的时候,给容器分配了半张 GPU 卡,然后想用 Tensorflow Benchmark 测试一下,却发现半张 V100 32GB 显存从一开始就被占满了, 关于如何限制 GPU 显存的使用量,可以参考官方的记录。为了能正常使用办张卡,也就是 16 GB 的显存,我希望可以注入一个 Config 类似如下。 per_process_gpu_memory_fraction=0.5) sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options)) 这样我的程序就只会用到半张卡的显存 xla=True --gpu_memory_frac_for_testing=0.5 3 Summary per_process_gpu_memory_fraction 参数可以设置 GPU 内进程使用显存最大的比例

    1.4K20发布于 2020-08-05
  • 来自专栏IT杂症

    v470修改显存大小

    准备工作备份 /System/Library/Extensions/AppleIntelSNBGraphicsFB.kext/

    81110发布于 2021-11-08
  • 来自专栏ETU-LINK

    数据中心40G QSFP+ SR4与40G QSFP+ LR4光模块的选择

    40G QSFP+光模块具有四个独立的全双工收发通道,是四通道小型可插拔光模块,这种四通道的接口传输速率可高达40Gbps。 40G QSFP+光模块是为高密度的应用程序专用,与传统SFP+光模块相比,端口密度更高,且整个系统成本更低。 40G QSFP+光模块符合SCSI、40G以太网、20G/40G Infiniband等多种标准,它有四个数据传输通道,每个通道的传输速率约为10Gbps,四个通道同时传输可以实现40Gbps的传输速率 40GBASE-SR4光模块除了可以利用MPO光纤跳线实现两个40G网络设备间的连接,还可以和MPO-LC光纤分支跳线使用实现40G网络设备和10G网络设备间的连接。

    1K20发布于 2019-03-25
  • 来自专栏深度学习和计算机视觉

    深度学习中GPU和显存分析

    点击上方“小白学视觉”,选择加"星标"或“置顶” 编者荐语 显存占用和GPU利用率是两个不一样的东西,显卡是由GPU计算单元和显存等组成的,显存和GPU的关系有点类似于内存和CPU的关系。 nvidia-smi的输出 这是nvidia-smi命令的输出,其中最重要的两个指标: 显存占用 GPU利用率 显存占用和GPU利用率是两个不一样的东西,显卡是由GPU计算单元和显存等组成的,显存和GPU 这么看来显存占用就是W和Y两个数组? 并非如此!!! 下面细细分析。 1.2.1 参数的显存占用 只有有参数的层,才会有显存占用。这部份的显存占用和输入无关,模型加载完成之后就会占用。 1.2.2 梯度与动量的显存占用 举例来说, 优化器如果是SGD: 这时候还需要保存动量, 因此显存x3 如果是Adam优化器,动量占用的显存更多,显存x4 总结一下,模型中与输入无关的显存占用包括: (因为不需要执行优化) 深度学习中神经网络的显存占用,我们可以得到如下公式: 显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用 可以看出显存不是和batch-size简单的成正比

    85310编辑于 2025-03-24
  • 来自专栏Dance with GenAI

    用腾讯Cloud Studio一键免费部署AI大模型

    免费版的提高那个40G存储,还可以使用GPU算力,能够即开即用使用AI框架、AI模型、AI应用。 选择基础型免费的,这个适用于推理场景,每个月1800分钟免费时长 ,显存:16GB +, 算力:8 + TFlops SP,CPU:8 核,内存:32GB 容器启动时会使用/usr/local/bin/ launch_chatglm2_6b_webui.sh自动启动一个GradioUI进程加载模型,导致运行时显存不足,需要先把之前的占用显存的进程kill掉。 transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("/root/chatglm3-6b-model ", trust_remote_code=True) model = AutoModel.from_pretrained("/root/chatglm3-6b-model", trust_remote_code

    4.3K10编辑于 2024-07-22
  • 40G光模块介绍及常见问题探讨

    40G光模块概述40G QSFP+光模块符合QSFP+MSA SFF-8436和IEEE 802.3ba标准性。 40G单模光模块最大传输距离可达40KM,40G QSFP+光模块在数据中心、云计算、高性能计算和电信运营商等场景有着广泛应用40G光模块接口类型40G光模块采用QSFP+(Quad Small Formfactor MTP/MPO接口常见于短距离传输的40G光模块,LC用于长距离传输光模块。40G光模块接口决定了搭配使用的跳线接头类型。40G光模块应用1. 40G光模块性能特点40G光模块传输速率40G,能够满足部分数据中心对高带宽的要求,其次40G光模块最远传输距离40km,在城域骨干网络应用中,相对于4个10G系统,能够节省机房面积、减少设备堆叠以及提高单节点设备的带宽管理能力和调度能力 40G光模块按模式可分为40G多模光模块和40G单模光模块。40G单模光模块用在在长距离传输中需要搭配单模光纤使用。40G多模光模块用于短距离传输,需要搭配多模光纤。

    63310编辑于 2024-11-25
  • 来自专栏OpenMMLab

    6G显存玩转大模型,更快更省的4bit量化推理硬核开源!

    它不仅把模型的显存减少到 FP16 的 40%,更重要的是,经过 kernel 层面的极致优化,推理性能并未损失,反而是 FP16 推理速度的三倍以上。 LMDeploy 的 profile_generation.py,在 A100-80G 上分别测试 4bit 和 16bit Llama-2-7B-chat 模型在不同 batch 下的 token 生成速度,以及显存占用情况 吞吐量和显存对照结果如下: request throughput 使用 LMDeploy 的 profile_throughput.py,在A100-80G 上分别测试 4bit 和 16bit Llama

    2.2K20编辑于 2023-08-21
  • 来自专栏DeepHub IMBA

    如何估算transformer模型的显存大小

    在微调GPT/BERT模型时,会经常遇到“ cuda out of memory”的情况。这是因为transformer是内存密集型的模型,并且内存要求也随序列长度而增加。所以如果能对模型的内存要求进行粗略的估计将有助于估计任务所需的资源。

    2.3K30编辑于 2022-11-11
  • 来自专栏彭旭锐

    至少要几个砝码,可以称出 1g ~ 40g 重量

    ---- 系列文章: 我知道你不知道,我到底知不知道[2] 至少要几个砝码,可以称出 1g ~ 40g 重量[3] 舞会上有多少顶黑帽?[4] 25 匹马 5 条赛道,最快需要几轮求出前 3 名? 问题描述 给定一台天平,至少要几个砝码,可以称出 1g ~ 40g 这 40 个重量? 这个问题等同于 “德·梅齐利亚克砝码”问题:一位商人有一个 40 磅的砝码,由于跌落在地而碎成4 块。 [6] —— 隔壁家的二傻子 著 我是小彭,带你构建 Android 知识体系。 AndroidFamily [2] 我知道你不知道,我到底知不知道: https://juejin.cn/post/6902829580013436942 [3] 至少要几个砝码,可以称出 1g ~ 40g : https://juejin.cn/post/6903861591188783112/ [6] 《世界上最完美的砝码组合---神秘的“3”重现江湖!》

    66910编辑于 2022-12-22
  • 来自专栏机器学习AI算法工程

    深度学习中GPU和显存分析

    显存占用越多,程序越快? 显存占用大小和batch size大小成正比? nvidia-smi的输出 这是nvidia-smi命令的输出,其中最重要的两个指标: 显存占用 GPU利用率 显存占用和GPU利用率是两个不一样的东西,显卡是由GPU计算单元和显存等组成的,显存和GPU 1.2.1 参数的显存占用 只有有参数的层,才会有显存占用。这部份的显存占用和输入无关,模型加载完成之后就会占用。 (因为不需要执行优化) 深度学习中神经网络的显存占用,我们可以得到如下公式: 显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用 可以看出显存不是和batch-size简单的成正比 1252820389.cosbj.myqcloud.com/%25E7%25A5%259E%25E7%25BB%258F%25E7%25BD%2591%25E7%25BB%259C%25E5%2588%2586%25E6%

    4.2K11发布于 2020-12-15
  • 来自专栏AI研习社

    深度学习中 GPU 和显存分析

    主要看显存的使用? 显存占用越多,程序越快? 显存占用大小和 batch size 大小成正比? 这么看来显存占用就是 W 和 Y 两个数组? 并非如此!!! 下面细细分析。 1.2.1 参数的显存占用 只有有参数的层,才会有显存占用。这部份的显存占用和输入无关,模型加载完成之后就会占用。 这时候还需要保存动量, 因此显存 x3 如果是 Adam 优化器,动量占用的显存更多,显存 x4 总结一下,模型中与输入无关的显存占用包括: 参数 W 梯度 dW(一般与参数一样) 优化器的动量(普通 (因为不需要执行优化) 深度学习中神经网络的显存占用,我们可以得到如下公式: 显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用 可以看出显存不是和 batch-size 简单的成正比

    7.9K100发布于 2018-03-16
  • 来自专栏Dechin的专栏

    关于python中显存回收的问题

    而且此时已经按照Jax的官方说明配置了XLA_PYTHON_CLIENT_PREALLOCATE这个参数为false,也就是不进行显存的预分配(默认会分配90%的显存空间以供使用)。 只是考虑到在python的进程结束之后,这一块的显存还是被成功释放了的,因此我考虑直接用进程的方法来解决这个显存分配和清空的方法,以下是一个基于进程实现的案例: import os os.environ 这么一来,我们既可以实现对象的即时销毁,也通过进程控制的机制确保在显存中占用的位置被清空。 总结概要 在使用一些python的GPU模块,或者写CUDA时,有时会发现显存被无端占用的场景,即时执行了cudaFree()或者python的del操作,也无法消除这一块的显存占用。 share_token=7ef0f7d6-6d68-4efb-995b-24517000ac11&tt_from=copy_link&utm_source=copy_link&utm_medium=toutiao_android

    3.3K10编辑于 2021-12-14
  • 来自专栏数据派THU

    如何估算transformer模型的显存大小

    来源:DeepHub IMBA本文约1200字,建议阅读6分钟本文为你介绍神经网络的内存计算方法。 在微调GPT/BERT模型时,会经常遇到“ cuda out of memory”的情况。

    3.2K20编辑于 2022-09-14
领券