首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 《URP管线主导的角色材质、阴影与显存动态适配优化方案》

    这一困境让我深刻认识到,URP优化绝非参数微调的表层工作,而是需深入管线底层架构,打通Shader编译、光照计算、粒子渲染与显存调度的全链路,实现多模块协同适配移动硬件特性,在保证角色皮肤次表面散射、衣物布料纹理 优化后,单角色显存占用最终降至8MB,同屏200个角色时显存占用稳定在1.4GB以内,完全适配移动端硬件限制,闪退率从12%降至0.3%,仅在极少数极端场景(同屏250+角色)出现偶发闪退,基本不影响核心体验 优化初期,我们曾陷入“头痛医头、脚痛医脚”的误区:单独优化Shader虽解决了材质失效问题,却因未适配光照系统的参数变化,导致角色在多光源环境下光影过渡生硬;调整粒子参数虽降低了Overdraw,却因与显存调度机制冲突 为此,我们构建“管线状态监控与动态适配”系统,通过Unreal Stat Render与NVIDIA Nsight Mobile工具,实时捕获CPU/GPU耗时、显存占用、Draw Call数量、Overdraw ,要解决模块间的适配冲突。

    29310编辑于 2025-10-30
  • 来自专栏JNing的专栏

    监视显存

    监视显存使用情况 watch [options] command 每10秒更新一次显存使用情况 watch -n 10 nvidia-smi ---- ----

    1.3K30发布于 2018-09-28
  • Torch 中显存回收节省显存的方法

    在进行模型推理时,需要考虑如何有效地利用和管理GPU显存。以下总结了常用的节省显存的方法。 将变量从显存释放 1. 这样可以更有效地利用显存,因为一些显存是用来存储模型的参数和中间结果的,而这些显存的使用量通常不会随着批量大小的增加而增加。 将模型和数据移动到CPU内存:如果你的模型和数据都在GPU显存中,那么你可以考虑在完成推理后将它们移动到CPU内存,以释放显存。 这是因为PyTorch使用了一种称为"缓存分配器"的机制来管理显存,这种机制可以减少显存的分配和释放操作,从而提高效率。 当你删除一个Tensor并释放了它占用的显存后,这部分显存并不会立即返回给操作系统,而是被缓存分配器保留下来,以便在后续的操作中重复使用。

    1.8K10编辑于 2024-07-01
  • 来自专栏大模型应用

    大模型应用:中小显存适配方案:大模型微调底座选型指标与应用实现.52

    数据规模:小样本(500条),需模型具备较强泛化能力,无需大量微调即可适配场景;4. 硬件约束:8G显存,需支持量化加载与轻量化微调。2. 2.3 适配模型与规避说明适配:ChatGLM-6B的INT4量化版是8G显存的黄金搭档;若拥有更高12G显存,则可考虑Qwen-13B。 4.3 适配模型与规避说明适配:ChatGLM-6B在推理速度和中文质量上取得了良好平衡。规避:如果需要处理长文档生成,应优先选择已知推理效率高、显存管理优化好的底座,避免生成过程过于缓慢。 分 结论:8G显存场景下,ChatGLM-6B(INT4量化版)综合适配性更优,兼顾显存、速度与效果。 七、总结 大模型微调底座选型的核心逻辑的是适配优先于性能,基于8G显存中小算力场景无需盲目追求大参数量模型,围绕任务适配性、算力匹配度、生态成熟度三大核心维度,通过“需求分析-筛选排除-打分排序

    15321编辑于 2026-03-21
  • 来自专栏深度学习那些事儿

    再次浅谈Pytorch中的显存利用问题(附完善显存跟踪代码)

    前言 之前在浅谈深度学习:如何计算模型以及中间变量的显存占用大小和如何在Pytorch中精细化利用显存中我们已经谈论过了平时使用中显存的占用来自于哪里,以及如何在Pytorch中更好地使用显存。 在这篇文章中,我们借用Pytorch-Memory-Utils这个工具来检测我们在训练过程中关于显存的变化情况,分析出我们如何正确释放多余的显存。 如何去释放不需要的显存。 首先,我们在下段代码中导入我们需要的库,随后开始我们的显存检测程序。 Tensor占用大,我们暂时将次归结为Pytorch在开始运行程序时需要额外的显存开销,这种额外的显存开销与我们实际使用的模型权重显存大小无关。 其实原因很简单,除了在程序运行时的一些额外显存开销,另外一个占用显存的东西就是我们在计算时候的临时缓冲值,这些零零总总也会占用一部分显存,并且这些缓冲值通过Python的垃圾收集是收集不到的。

    2.4K50编辑于 2023-10-19
  • 来自专栏JNing的专栏

    【tensorflow】设置显存开销

    问题 一般大家在跑tf时,单个程序往往会占满整块GPU的所有显存。 但是实际上,程序很可能并不需要那么大的显存空间。 改进方案 通过 tf.ConfigProto().gpu_options.allow_growth=True来告诉程序,只需占用实际所需的显存即可: # ---------------- session True sess = tf.Session(config=config) 如果这里把 config.gpu_options.allow_growth设置为False,那么程序就会默认把整块卡的所有显存占满

    1.1K10发布于 2020-03-17
  • 来自专栏AIUAI

    GPU 显存 - Caffe 内存优化

    Caffe - 显存优化 1. 测试了一下, ResNet101 相对于官方 caffe, 能够明显节省显存占用, batchsize 可以增加很多. 显存优化的 Caffe 主要实现的功能: memory multiloading 在深度网络训练和测试时,可以显著地节省内存. 训练时,节省一半内存; 测试时, 使用 95% 的内存. 在训练深度网络时, GPU显存资源是有限的.

    2.8K60发布于 2018-05-17
  • 来自专栏CSDNToQQCode

    win11怎么看显存——win11如何看显存

    显存查看方法1、 1、快捷键【Ctrl+Shift+ESC】打开【任务管理器】 2、点击左侧的性能 显存查看方法2、 在Windows 11在Windows 11中查看显存的方法如下: 1 在“高级显示”设置窗口中,点击“显示器1的显示适配器属性”。 在显卡属性窗口中,适配器下,就可以查看显存信息。 显存查看方法3、 此外,还可以使用DirectX诊断工具来查看显存。 在“显示”选项卡中,找到“显存”一项,即可查看显存信息。 以上两种方法都可以帮助您在Windows 11中查看显存信息。如果还有其他问题,欢迎随时提问。 显存对AI的重要意义 显存是显卡中存储图像数据的关键组成部分,对AI具有重要意义,主要体现在: 显存决定了计算机在处理图像时能够存储和操作的数据量大小。 在AI绘图中,需要频繁读写显存中的数据,因此高带宽的显存对于实时绘图和复杂计算非常重要。 因此,显存对于AI应用来说是非常重要的,尤其是在需要大量处理和操作图像数据的场合。

    16.3K10编辑于 2023-11-29
  • 来自专栏容器计算

    tf_cnn_benchmark 显存问题

    1 Overview 在测试 vGPU 的功能的时候,给容器分配了半张 GPU 卡,然后想用 Tensorflow Benchmark 测试一下,却发现半张 V100 32GB 显存从一开始就被占满了, 关于如何限制 GPU 显存的使用量,可以参考官方的记录。为了能正常使用办张卡,也就是 16 GB 的显存,我希望可以注入一个 Config 类似如下。 per_process_gpu_memory_fraction=0.5) sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options)) 这样我的程序就只会用到半张卡的显存 xla=True --gpu_memory_frac_for_testing=0.5 3 Summary per_process_gpu_memory_fraction 参数可以设置 GPU 内进程使用显存最大的比例

    1.4K20发布于 2020-08-05
  • 来自专栏IT杂症

    v470修改显存大小

    准备工作备份 /System/Library/Extensions/AppleIntelSNBGraphicsFB.kext/

    81010发布于 2021-11-08
  • 来自专栏深度学习和计算机视觉

    深度学习中GPU和显存分析

    点击上方“小白学视觉”,选择加"星标"或“置顶” 编者荐语 显存占用和GPU利用率是两个不一样的东西,显卡是由GPU计算单元和显存等组成的,显存和GPU的关系有点类似于内存和CPU的关系。 nvidia-smi的输出 这是nvidia-smi命令的输出,其中最重要的两个指标: 显存占用 GPU利用率 显存占用和GPU利用率是两个不一样的东西,显卡是由GPU计算单元和显存等组成的,显存和GPU 这么看来显存占用就是W和Y两个数组? 并非如此!!! 下面细细分析。 1.2.1 参数的显存占用 只有有参数的层,才会有显存占用。这部份的显存占用和输入无关,模型加载完成之后就会占用。 1.2.2 梯度与动量的显存占用 举例来说, 优化器如果是SGD: 这时候还需要保存动量, 因此显存x3 如果是Adam优化器,动量占用的显存更多,显存x4 总结一下,模型中与输入无关的显存占用包括: (因为不需要执行优化) 深度学习中神经网络的显存占用,我们可以得到如下公式: 显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用 可以看出显存不是和batch-size简单的成正比

    80310编辑于 2025-03-24
  • 来自专栏DeepHub IMBA

    如何估算transformer模型的显存大小

    在微调GPT/BERT模型时,会经常遇到“ cuda out of memory”的情况。这是因为transformer是内存密集型的模型,并且内存要求也随序列长度而增加。所以如果能对模型的内存要求进行粗略的估计将有助于估计任务所需的资源。

    2.3K30编辑于 2022-11-11
  • 来自专栏数据派THU

    如何估算transformer模型的显存大小

    来源:DeepHub IMBA本文约1200字,建议阅读6分钟本文为你介绍神经网络的内存计算方法。 在微调GPT/BERT模型时,会经常遇到“ cuda out of memory”的情况。这是因为transformer是内存密集型的模型,并且内存要求也随序列长度而增加。所以如果能对模型的内存要求进行粗略的估计将有助于估计任务所需的资源。 如果你想直接看结果,可以跳到本文最后。不过在阅读本文前请记住所有神经网络都是通过反向传播的方法进行训练的, 这一点对于我们计算内存的占用十分重要。 total_me

    3.2K20编辑于 2022-09-14
  • 来自专栏AIUAI

    Keras - GPU ID 和显存占用设定

    因此, 需要类似于 Caffe 等框架的可以设定 GPU ID 和显存自动按需分配. 实际中发现, Keras 还可以限制 GPU 显存占用量. 这里涉及到的内容有: GPU ID 设定 GPU 显存占用按需分配 GPU 显存占用限制 GPU 显存优化 1. GPU ID 设定 #! GPU 显存占用按需分配 #! GPU 显存占用限制 #! 设定 GPU 显存占用比例实际上是避免一定的显存资源浪费. 4. GPU ID 设定与显存按需分配 #!

    2.2K160发布于 2018-05-17
  • 来自专栏计算机技术-参与活动

    显存:存储,GPU:计算;Pipeline Parallelism(管道并行)

    同时,文章还讨论了数据传输中的安全性问题,提出了不依赖加密算法的数据传输安全方案​ 目录显存:存储,GPU:计算流水线切分策略:(数据并并,多头并行,单头MLP切片)存储(显存)和计算(GPU)负载不均衡的问题 :存储,GPU:计算流水线切分策略:(数据并并,多头并行,单头MLP切片)显存与存储: 显存(Video Memory或Graphics Memory)是GPU上的专用内存,用于存储图形数据、纹理、帧缓冲区等 在图形处理和并行计算任务中,显存扮演着关键角色,因为它需要快速访问和存储大量数据。 然而,在图形处理和计算加速的上下文中,“存储”可能特指显存,因为它是GPU处理数据所依赖的关键资源。 存储(显存)和计算(GPU)负载不均衡的问题1,2,3,4,5指的计算任务(数据切分)大方块代表GPU计算黄色代表显存存储和计算负载不均衡的问题主要出现在大规模并行计算环境中,尤其是在训练大型语言模型时

    70121编辑于 2024-11-26
  • 来自专栏AI研习社

    深度学习中 GPU 和显存分析

    主要看显存的使用? 显存占用越多,程序越快? 显存占用大小和 batch size 大小成正比? 这么看来显存占用就是 W 和 Y 两个数组? 并非如此!!! 下面细细分析。 1.2.1 参数的显存占用 只有有参数的层,才会有显存占用。这部份的显存占用和输入无关,模型加载完成之后就会占用。 这时候还需要保存动量, 因此显存 x3 如果是 Adam 优化器,动量占用的显存更多,显存 x4 总结一下,模型中与输入无关的显存占用包括: 参数 W 梯度 dW(一般与参数一样) 优化器的动量(普通 (因为不需要执行优化) 深度学习中神经网络的显存占用,我们可以得到如下公式: 显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用 可以看出显存不是和 batch-size 简单的成正比

    7.9K100发布于 2018-03-16
  • 来自专栏Dechin的专栏

    关于python中显存回收的问题

    技术背景 笔者在执行一个Jax的任务中,又发现了一个奇怪的问题,就是明明只分配了很小的矩阵空间,但是在多次的任务执行之后,显存突然就爆了。 而且此时已经按照Jax的官方说明配置了XLA_PYTHON_CLIENT_PREALLOCATE这个参数为false,也就是不进行显存的预分配(默认会分配90%的显存空间以供使用)。 只是考虑到在python的进程结束之后,这一块的显存还是被成功释放了的,因此我考虑直接用进程的方法来解决这个显存分配和清空的方法,以下是一个基于进程实现的案例: import os os.environ 这么一来,我们既可以实现对象的即时销毁,也通过进程控制的机制确保在显存中占用的位置被清空。 总结概要 在使用一些python的GPU模块,或者写CUDA时,有时会发现显存被无端占用的场景,即时执行了cudaFree()或者python的del操作,也无法消除这一块的显存占用。

    3.2K10编辑于 2021-12-14
  • 来自专栏机器学习AI算法工程

    深度学习中GPU和显存分析

    显存占用越多,程序越快? 显存占用大小和batch size大小成正比? nvidia-smi的输出 这是nvidia-smi命令的输出,其中最重要的两个指标: 显存占用 GPU利用率 显存占用和GPU利用率是两个不一样的东西,显卡是由GPU计算单元和显存等组成的,显存和GPU 1.2.1 参数的显存占用 只有有参数的层,才会有显存占用。这部份的显存占用和输入无关,模型加载完成之后就会占用。 ,占用的显存大小基本与上述分析的显存差不多(会稍大一些,因为其它开销)。 (因为不需要执行优化) 深度学习中神经网络的显存占用,我们可以得到如下公式: 显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用 可以看出显存不是和batch-size简单的成正比

    4.2K11发布于 2020-12-15
  • 来自专栏十月梦想

    移动端适配之终极适配方案rem适配

    前面几篇移动端专区博文简单介绍了移动端的概述,以及简单的适配方案,百分比适配,比例缩放适配,viewport适配等,但是难免都有一些各种问题! 这次这个rem终极适配方案,是目前移动端的较为完美的适配方案! 简单介绍一下这个rem适配 px  固定值,设置多少就是多少不随屏幕大小改变 em  相对于自身字体大小 font-size:12px;  1em=12px em引发问题  1.chrome浏览器下规定字体最小 html)字体设置 html{ font-size:12px; } 1rem=12px,5rem=60px; 首先要去设置这个html(根节点的字体大小),rem是根据这个根节点的字体大小进行适配 当然去适配的时候这个根节点的大小如何设置才能更好适配呢?

    2K20发布于 2018-08-29
  • 来自专栏十月梦想

    移动端适配之viewport适配

    前面说过了比例缩放适配,本来想直接介绍rem适配!还是补充一下这个viewport适配吧!其实这个viewport也归属于比例缩放适配的一种吧! 首先我们可以获取到当前设备的独立像素(window.screen.width),然后通过适配的像素比(dpr)还原其真实逻辑像素(物理像素),然后在其还原后的设备像素上进行适配. 那么这个viewport适配有什么问题呢? (比例缩放时候讲过),尽管这样,也算尽量尽可能的去适配!随后继续介绍较为完美的rem布局适配方案!淘宝的布局方案,也算此种方式!不过适配的是dpr2.0的!

    1.3K10发布于 2018-08-29
领券