首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 《URP管线主导的角色材质、阴影与显存动态适配优化方案》

    这一困境让我深刻认识到,URP优化绝非参数微调的表层工作,而是需深入管线底层架构,打通Shader编译、光照计算、粒子渲染与显存调度的全链路,实现多模块协同适配移动硬件特性,在保证角色皮肤次表面散射、衣物布料纹理 这一系列调整后,Shader编译时间缩短65%,降至7秒以内,材质失效概率从35%直接降至0,CPU的Shader管理线程耗时从3.2ms降至0.8ms,为主线程释放出更多资源用于逻辑计算。 优化后,单角色显存占用最终降至8MB,同屏200个角色时显存占用稳定在1.4GB以内,完全适配移动端硬件限制,闪退率从12%降至0.3%,仅在极少数极端场景(同屏250+角色)出现偶发闪退,基本不影响核心体验 为此,我们构建“管线状态监控与动态适配”系统,通过Unreal Stat Render与NVIDIA Nsight Mobile工具,实时捕获CPU/GPU耗时、显存占用、Draw Call数量、Overdraw ,要解决模块间的适配冲突。

    35210编辑于 2025-10-30
  • 来自专栏JNing的专栏

    监视显存

    监视显存使用情况 watch [options] command 每10秒更新一次显存使用情况 watch -n 10 nvidia-smi ---- ----

    1.3K30发布于 2018-09-28
  • Torch 中显存回收节省显存的方法

    在进行模型推理时,需要考虑如何有效地利用和管理GPU显存。以下总结了常用的节省显存的方法。 将变量从显存释放 1. 这样可以更有效地利用显存,因为一些显存是用来存储模型的参数和中间结果的,而这些显存的使用量通常不会随着批量大小的增加而增加。 将模型和数据移动到CPU内存:如果你的模型和数据都在GPU显存中,那么你可以考虑在完成推理后将它们移动到CPU内存,以释放显存。 这是因为PyTorch使用了一种称为"缓存分配器"的机制来管理显存,这种机制可以减少显存的分配和释放操作,从而提高效率。 当你删除一个Tensor并释放了它占用的显存后,这部分显存并不会立即返回给操作系统,而是被缓存分配器保留下来,以便在后续的操作中重复使用。

    1.9K10编辑于 2024-07-01
  • 来自专栏Python机器学习算法说书人

    Python设计模式(7):适配器模式

    导言 在软件设计中,为了解决接口不一致的问题,两个软件模块之间往往需要通过一个适配器类 Adapter 进行“适配”。这样的模式叫做适配器设计模式。 类适配器模式 这里以问题引入类适配器模式的概念。 类适配器模式与对象适配器模式在形式上的区别是,类适配器模式对被适配对象采用了继承,而对象适配器对被适配对象采用的则是调用。 何时使用适配器模式 在下列情况下可以使用适配器模式。 类适配器模式与对象适配器模式的区别 如果一个被适配源类中有大量的方法,使用类适配器模式比较容易,只需要让 Adapter 类继承被适配的源类即可。

    2.2K20发布于 2019-07-26
  • 来自专栏大模型应用

    大模型应用:中小显存适配方案:大模型微调底座选型指标与应用实现.52

    1.3 适配模型与规避说明适配:ChatGLM-6B、Qwen-7B的量化版都是经过验证的中文生成强底座。 2.3 适配模型与规避说明适配:ChatGLM-6B的INT4量化版是8G显存的黄金搭档;若拥有更高12G显存,则可考虑Qwen-13B。 优选项打分排序:按优选项每项25分打分,如: ChatGLM-6B得分95分,依据:显存占用低、教程丰富Qwen-7B得分80分,依据:显存紧张、电商案例少确定ChatGLM-6B为首选、Qwen-7B 案例结论8G显存+中文电商文案生成场景下:ChatGLM-6B(INT4量化版)为最优底座,兼顾显存适配性、生成效率与任务效果;Qwen-7B(INT4量化版)可作为备选,仅当需要长文本生成(超过2048 今天我们以8G显存+中文电商文案生成为场景,验证了ChatGLM-6B(INT4量化版)的综合适配优势:显存占用低、生成效率高、中文效果优,是中小算力用户文本生成任务的首选底座;Qwen-7B(INT4

    44932编辑于 2026-03-21
  • 来自专栏深度学习那些事儿

    再次浅谈Pytorch中的显存利用问题(附完善显存跟踪代码)

    前言 之前在浅谈深度学习:如何计算模型以及中间变量的显存占用大小和如何在Pytorch中精细化利用显存中我们已经谈论过了平时使用中显存的占用来自于哪里,以及如何在Pytorch中更好地使用显存。 Memory:696.5 Mb At __main__ <module>: line 13 Total Used Memory:696.5 Mb + | 7 如何去释放不需要的显存。 首先,我们在下段代码中导入我们需要的库,随后开始我们的显存检测程序。 Tensor占用大,我们暂时将次归结为Pytorch在开始运行程序时需要额外的显存开销,这种额外的显存开销与我们实际使用的模型权重显存大小无关。 > + | 1 * Size:(128, 128, 3, 3) | Memory: 0.5898 M | <class 'torch.nn.parameter.Parameter'> + | 7

    2.4K50编辑于 2023-10-19
  • 来自专栏AIUAI

    GPU 显存 - Caffe 内存优化

    Caffe - 显存优化 1. 测试了一下, ResNet101 相对于官方 caffe, 能够明显节省显存占用, batchsize 可以增加很多. 显存优化的 Caffe 主要实现的功能: memory multiloading 在深度网络训练和测试时,可以显著地节省内存. 训练时,节省一半内存; 测试时, 使用 95% 的内存. 在训练深度网络时, GPU显存资源是有限的.

    2.8K60发布于 2018-05-17
  • 来自专栏JNing的专栏

    【tensorflow】设置显存开销

    问题 一般大家在跑tf时,单个程序往往会占满整块GPU的所有显存。 但是实际上,程序很可能并不需要那么大的显存空间。 改进方案 通过 tf.ConfigProto().gpu_options.allow_growth=True来告诉程序,只需占用实际所需的显存即可: # ---------------- session True sess = tf.Session(config=config) 如果这里把 config.gpu_options.allow_growth设置为False,那么程序就会默认把整块卡的所有显存占满

    1.2K10发布于 2020-03-17
  • 来自专栏CSDNToQQCode

    win11怎么看显存——win11如何看显存

    显存查看方法1、 1、快捷键【Ctrl+Shift+ESC】打开【任务管理器】 2、点击左侧的性能 显存查看方法2、 在Windows 11在Windows 11中查看显存的方法如下: 1 在“高级显示”设置窗口中,点击“显示器1的显示适配器属性”。 在显卡属性窗口中,适配器下,就可以查看显存信息。 显存查看方法3、 此外,还可以使用DirectX诊断工具来查看显存。 在“显示”选项卡中,找到“显存”一项,即可查看显存信息。 以上两种方法都可以帮助您在Windows 11中查看显存信息。如果还有其他问题,欢迎随时提问。 显存对AI的重要意义 显存是显卡中存储图像数据的关键组成部分,对AI具有重要意义,主要体现在: 显存决定了计算机在处理图像时能够存储和操作的数据量大小。 在AI绘图中,需要频繁读写显存中的数据,因此高带宽的显存对于实时绘图和复杂计算非常重要。 因此,显存对于AI应用来说是非常重要的,尤其是在需要大量处理和操作图像数据的场合。

    17.7K11编辑于 2023-11-29
  • 来自专栏容器计算

    tf_cnn_benchmark 显存问题

    1 Overview 在测试 vGPU 的功能的时候,给容器分配了半张 GPU 卡,然后想用 Tensorflow Benchmark 测试一下,却发现半张 V100 32GB 显存从一开始就被占满了, 关于如何限制 GPU 显存的使用量,可以参考官方的记录。为了能正常使用办张卡,也就是 16 GB 的显存,我希望可以注入一个 Config 类似如下。 per_process_gpu_memory_fraction=0.5) sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options)) 这样我的程序就只会用到半张卡的显存 xla=True --gpu_memory_frac_for_testing=0.5 3 Summary per_process_gpu_memory_fraction 参数可以设置 GPU 内进程使用显存最大的比例

    1.4K20发布于 2020-08-05
  • 来自专栏集成电路IC测试座案例合计

    深度解析GDDR7新型显存技术:相对优势与芯片测试座的作用

    作为支撑这些高密度计算任务的关键硬件之一,显存技术的进步尤为关键。在这一背景下,新一代显存技术——GDDR7应运而生,凭借其诸多优势,迅速成为各大应用领域的关注焦点。 GDDR7:新一代显存技术的兴起GDDR7,全称Graphics Double Data Rate 7,是最新的显存技术标准,旨在解决当今计算密集型应用对更高带宽和低延迟的需求。 这一提升意味着在相同显存容量下,GDDR7能够处理更多的数据,极大缓解了显存瓶颈问题,为人工智能模型训练、高性能计算以及自动驾驶算法提供了更为流畅的计算支持。 更大的容量再者,GDDR7显存单颗粒容量更大,单颗粒容量可达32Gb,这意味着在相同PCB尺寸下,GPU厂商可以容纳更多的显存单元,为显存密集型应用提供了更大的存储空间。 同样,在基因序列分析或药物研发中,GDDR7显存提供了更加无缝的数据处理平台,显著提升了研究进展的速度。

    1.3K10编辑于 2024-08-28
  • 来自专栏C博文

    RTX 5070显卡深度评测:GDDR7显存如何提升AI训练与游戏体验?

    RTX 5070 评测:GDDR7显存助力AI训练与游戏体验提升 1. 显存方面,它配备了 12GB GDDR7显存,位宽192-bit,显存速率28Gbps,带宽高达 672GB/s (Nvidia GeForce RTX 5070 release date, price 同时,GDDR7显存在能效上也有显著改进——三星宣称其功耗效率较GDDR6提升30%,美光和海力士则表示提升可达50% (GDDR7 vs GDDR6 – What’s the difference? 对于RTX 5070这种仅192-bit位宽的中高端卡来说,GDDR7的高速特性尤其重要,它能让窄位宽的显存系统也获得充足带宽,避免因为内存带宽不足而限制GPU性能 (GDDR7 vs GDDR6 – 需要补充的是,由于采用了功耗较高的GDDR7显存和更强的GPU,RTX 5070在整机供电和散热规划上也需要相应跟进。

    5.1K10编辑于 2025-07-14
  • 来自专栏芯智讯

    国产游戏显卡摩尔线程MTT S70开卖:7nm工艺7GB显存,2499元现货

    MTT S70显卡可以看作之前S80显卡的精简版,进一步降低价位,推动国产显卡普及,其基于7nm工艺春晓GPU核心,7GB显存。 此外,摩尔这款新显卡还拥有3584个MUSA核心,频率1.6GHz,浮点性能11.2TFLOPS,显存也是GDDR6,但容量减少到了7GB,带宽392GB/s,这个显存配置还是极为少见的。

    61060编辑于 2023-08-09
  • 来自专栏IT杂症

    v470修改显存大小

    AppleIntelSNBGraphicsFB.kext/ cd /System/Library/Extensions/AppleIntelSNBGraphicsFB.kext/Contents/MacOx sudo perl -pi -e 's|\xC7\ x45\xBC\x00\x00\x00\x20|\xc7\x45\xBC\x00\x00\x00\x40|g' AppleIntelSNBGraphicsFB sudo touch /System/Library

    81110发布于 2021-11-08
  • 来自专栏EdisonTalk

    设计模式的征途—7.适配器(Adapter)模式

    二、适配器模式简介 2.1 适配器模式定义   适配器模式的实现就是把客户类的请求转化为对应适配者的相应接口的调用。 也就是说:当客户类调用适配器的方法时,在适配器类的内部将调用适配者类的方法,而这个过程对于客户类来说是透明的,客户类并不直接访问适配者类。 (2)Adapter(适配器类):适配器可以调用另一个接口,作为一个转换器,对Adaptee和Target进行适配适配器类是适配者模式的核心,在适配器模式中,它通过继承Target并关联一个Adaptee对象使二者产生联系。    (3)Adaptee(适配者类):适配者即被适配的角色,它定义了一个已经存在的接口,这个接口需要适配,一般是一个具体类,包含了客户希望使用的业务方法,在某些情况下可能没有适配者类的源代码。

    82830发布于 2018-08-20
  • 来自专栏AgenticAI

    仅需7G显存就能蒸馏自己的DeepSeek R1推理小模型

    simpleRL-reason[5]:在 8k MATH 数据集上复刻 R1-Zero 的范式 open-r1-multimodal[6]:R1 多模态的复刻项目 open-thoughts[7]:最成熟的 在复刻 R1 过程中,Unsloth团队优化了整个流程,显著减少了 GRPO 显存,使其使用的显存比 TinyZero 使用的 Hugging Face + Flash Attention 2 要少80% 得益于这一改进,我们甚至可以在仅 7GB 显存的设备上,通过 Qwen2.5(1.5B)重现 R1-Zero 所带来的“顿悟时刻”;当然,如果硬件条件更宽裕,在 16GB 显存环境下,还可以蒸馏出类似 7B Qwen 2、8B LLama 3 或 14B Phi-4 等更大规模模型。 hkust-nlp/simpleRL-reason [6] open-r1-multimodal: https://github.com/EvolvingLMMs-Lab/open-r1-multimodal [7]

    45900编辑于 2025-03-18
  • 来自专栏深度学习和计算机视觉

    深度学习中GPU和显存分析

    点击上方“小白学视觉”,选择加"星标"或“置顶” 编者荐语 显存占用和GPU利用率是两个不一样的东西,显卡是由GPU计算单元和显存等组成的,显存和GPU的关系有点类似于内存和CPU的关系。 nvidia-smi的输出 这是nvidia-smi命令的输出,其中最重要的两个指标: 显存占用 GPU利用率 显存占用和GPU利用率是两个不一样的东西,显卡是由GPU计算单元和显存等组成的,显存和GPU 这么看来显存占用就是W和Y两个数组? 并非如此!!! 下面细细分析。 1.2.1 参数的显存占用 只有有参数的层,才会有显存占用。这部份的显存占用和输入无关,模型加载完成之后就会占用。 1.2.2 梯度与动量的显存占用 举例来说, 优化器如果是SGD: 这时候还需要保存动量, 因此显存x3 如果是Adam优化器,动量占用的显存更多,显存x4 总结一下,模型中与输入无关的显存占用包括: (因为不需要执行优化) 深度学习中神经网络的显存占用,我们可以得到如下公式: 显存占用 = 模型显存占用 + batch_size × 每个样本的显存占用 可以看出显存不是和batch-size简单的成正比

    85310编辑于 2025-03-24
  • 来自专栏DeepHub IMBA

    如何估算transformer模型的显存大小

    在微调GPT/BERT模型时,会经常遇到“ cuda out of memory”的情况。这是因为transformer是内存密集型的模型,并且内存要求也随序列长度而增加。所以如果能对模型的内存要求进行粗略的估计将有助于估计任务所需的资源。

    2.3K30编辑于 2022-11-11
  • 来自专栏Java架构师必看

    ios学习7_iPhone屏幕尺寸、分辨率及适配

    今天说一说ios学习7_iPhone屏幕尺寸、分辨率及适配,希望能够帮助大家进步!!! 7.Resolutions &Rendering 8.@2x/@3x以及高倍图适配 (1)@2x @2x means the same “double”retina resolution (3)按字体适配 另外,iPhone的【设置】【通用】【辅助功能】中可以设置调节【更大字体】,APP也可以按字号适配: 例如适配表视图(UITableView:UIScrollView 12.DEPRECATED API适配 最后,除了对屏幕尺寸和分辨率进行适配之外,还需对iOS SDK中相关的DEPRECATED API进行适配。 《iPhone 6/6+适配心得》 《iOS8/Xcode6/iPhone6(+)适配》 《APP适配iOS8,iPhone6(+)截图简要说明》 《按比例快速兼容适配iPhone6

    1.6K50编辑于 2022-04-24
  • 来自专栏全栈程序员必看

    ios学习7_iPhone屏幕尺寸、分辨率及适配

    7.Resolutions &Rendering 8.@2x/@3x以及高倍图适配 (1)@2x @2x means the same “double”retina resolution (3)按字体适配 另外,iPhone的【设置】【通用】【辅助功能】中可以设置调节【更大字体】,APP也可以按字号适配: 例如适配表视图(UITableView:UIScrollView 12.DEPRECATED API适配 最后,除了对屏幕尺寸和分辨率进行适配之外,还需对iOS SDK中相关的DEPRECATED API进行适配。 《在Xcode 6中用矢量化PDF(vectorized PDF)来支持各种尺寸的iPhone》 《iOS8适配须知》 《适配iOS8备忘录》 《iOS界面适配(一)(二)(三)》 《iPhone 6/6+适配心得》 《iOS8/Xcode6/iPhone6(+)适配》 《APP适配iOS8,iPhone6(+)截图简要说明》 《按比例快速兼容适配iPhone6

    4.1K20编辑于 2022-08-27
领券