首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏高级开发进阶

    【玩转 GPU】GPU硬件技术:解析显卡显存等核心要点

    实用性:显卡显存配置优化GPU硬件技术中,显卡显存配置的合理性影响性能。为特定场景选择合适的显卡型号和配置,以及合适的显存容量和类型,能提升数据传输与处理能力。3.

    1.9K11编辑于 2023-06-01
  • 来自专栏高级开发进阶

    【玩转 GPU】GPU硬件技术:深入解析显卡显存等关键技术

    GPU硬件技术:深入解析显卡显存等关键技术在现代计算设备中,GPU(图形处理器)扮演着至关重要的角色。本篇文章将深入解析有关GPU硬件的技术知识,涵盖显卡显存等关键方面。 显卡技术:架构设计与工艺制程显卡是GPU的主要载体,负责与用户交互并处理图形数据。GPU的架构设计和工艺制程对其性能和能效具有重要影响。 延迟则是显存与GPU之间数据传输所需的时间,过低的延迟有利于减少数据传输瓶颈。3. 技术:并行计算与浮点性能是GPU的重要性能指标,直接反映了其处理图形数据的能力。 浮点性能是衡量GPU的另一个关键指标,包括单精度(FP32)和双精度(FP64)计算能力。4. 性能测评:基准测试与功耗测试为了评估GPU的性能,需要进行基准测试和功耗测试。 总结:GPU硬件技术涵盖了显卡显存等关键方面。本文从硬件架构、性能测评、功耗管理等角度深入解析了GPU硬件技术的核心要点,旨在帮助开发者更好地理解和运用GPU技术。

    4.1K11编辑于 2023-06-01
  • Nvidia A40显卡信息

     CUDA Device Query (Runtime API) version (CUDART static linking) Detected 1 CUDA Capable device(s) Device 0: "NVIDIA A40"   CUDA Driver Version / Runtime Version          12.4 / 12.4   CUDA Capability Major/Minor version number:    8.6   Total amount of global memory:                 48834 MBytes (51206094848 bytes)   (84) Multiprocessors, (128) CUDA Cores/MP:     10752 CUDA Cores   GPU Max Clock rate:                            1740 MHz (1.74 GHz)   Memory Clock rate:                             7251 Mhz   Memory Bus Width:                              384-bit   L2 Cache Size:                                 6291456 bytes   Maximum Texture Dimension Size (x,y,z)         1D=(131072), 2D=(131072, 65536), 3D=(16384, 16384, 16384)   Maximum Layered 1D Texture Size, (num) layers  1D=(32768), 2048 layers   Maximum Layered 2D Texture Size, (num) layers  2D=(32768, 32768), 2048 layers   Total amount of constant memory:               zu bytes   Total amount of shared memory per block:       zu bytes   Total number of registers available per block: 65536   Warp size:                                     32   Maximum number of threads per multiprocessor:  1536   Maximum number of threads per block:           1024   Max dimension size of a thread block (x,y,z): (1024, 1024, 64)   Max dimension size of a grid size    (x,y,z): (2147483647, 65535, 65535)   Maximum memory pitch:                          zu bytes   Texture alignment:                             zu bytes   Concurrent copy and kernel execution:          Yes with 2 copy engine(s)   Run time limit on kernels:                     No   Integrated GPU sharing Host Memory:            No   Support host page-locked memory mapping:       Yes   Alignment requirement for Surfaces:            Yes   Device has ECC support:                        Disabled   CUDA Device Driver Mode (TCC or WDDM):         TCC (Tesla Compute Cluster Driver)   Device supports Unified Addressing (UVA):      Yes   Device supports Compute Preemption:            Yes  

    56010编辑于 2025-07-21
  • 来自专栏object

    【玩转GPU】全面解析GPU硬件技术:显卡显存和功耗管理的核心要点

    摘要:本文将全面探讨GPU硬件技术,从硬件架构到性能评估,深入揭示显卡显存和功耗管理等关键要点。了解GPU硬件技术对于优化应用性能、加速计算任务以及推动科学研究具有重要意义。 三、与性能评估:是衡量GPU性能的关键指标之一,表示每秒执行的浮点运算次数。常用的衡量单位是FLOPS(Floating Point Operations Per Second)。 除了显存带宽、核心频率和内存带宽等因素也GPU性能。性能评估可以通过基准测试(Benchmarking)来完成,常用的测试套件包括3DMark、SPECviewperf和DeepBench等。 计算能力(吞吐量)一个非常重要的性能指标就是计算吞吐量,单位为GFLOP/s,指标Giga-FLoating-point OPerations per second表示每秒的浮点操作数量。 在本文中,我们深入探索了GPU硬件技术的核心要点,包括硬件架构、显存技术、与性能评估以及功耗管理。

    17.9K30编辑于 2023-06-26
  • 来自专栏又见苍岚

    模型运算量、显卡说明

    关于深度学习的、计算量存在很多单位,本文记录相关内容。 概念 指计算设备(GPU、CPU、NPU等)完成计算的能力大小,一般评价指标为在单位时间内完成的运算次数 计算量 指模型推断过程中需要的运算量,一般用来评价模型规模以及推断运行时间 常用单位 单位类型 TOPS和FLOPS指的是每秒的计算量,算是速度方面的,用在芯片性能上。FLOPs指的是深度学习模型自身的计算量,算是体量方面的,用在深度学习模型本身参数计算量上。 3、仍然是针对速度方面的TOPS和FLOPS,这里的T指的是量级(Tera ,万亿,10^12),同理TFLOPS专门指每秒对浮点数处理的达到多少万亿次数。 下图为nvidia-A100/H100部分信息,可对比TOPS/TFLOPS区别。

    3.2K10编辑于 2024-03-05
  • 来自专栏高级开发进阶

    【玩转 GPU】GPU硬件技术:解析显卡显存等核心要点、实战案例与应用场景、优化空间

    1.GPU硬件技术:解析显卡显存等核心要点随着人工智能、大数据和高性能计算的发展,GPU技术在现代计算领域发挥着举足轻重的作用。 实用性:显卡显存配置与优化在GPU硬件技术中,显卡显存配置的合理性直接影响到GPU性能。针对特定应用场景选择合适的显卡型号和配置,以及显存容量和类型的选择,是提高数据传输和处理能力的关键。3. 4.硬件规格调整 根据应用场景调整硬件规格,例如增加显存容量、优化显存带宽等,以满足高性能计算和数据密集型任务的需求。

    2.3K00编辑于 2023-06-01
  • nvidia GRID P40-4Q显卡信息

    C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.6\extras\demo_suite>deviceQuery.exe deviceQuery.exe Starting...

    44800编辑于 2025-07-21
  • 来自专栏AI前沿技术

    显卡基础知识|英伟达开挂的GPU!

    AI模型训练和推理对的要求各有特点,如何在具体的场景下综合权衡选择显卡,怎样才能达到性能、能耗和成本的最佳平衡。 本文围绕这个问题,介绍下关于显卡的基础知识: 1)模型训练和推理中常见的浮点数精度和显卡介绍 2)英伟达显卡架构和命名方式 3)由单张GPU显卡到计算节点和集群,对模型训练方式的选择。 1, 显卡参数和计算 1.1 显卡参数介绍 浮点数通用结构(IEEE 754 标准)所有浮点数均由 符号位(S)、指数位(E)、尾数位(M) 组成. • FP8/FP6/FP4:目前只有特定类型的显卡,对硬件优化才支持。 下表是在不同数值下A100、H100 和H200的。 单节点内的极致性能技术实现,例如,DGX H100单节点内8颗H100 GPU通过NVLink全互连,共享显存带宽达7.2TB/s。 优势:突破单卡限制,支持单节点运行万亿参数大模型 。

    1.7K10编辑于 2026-01-13
  • 来自专栏产品经理的人工智能学习库

    – computation

    文章目录 人工智能里的是什么? 在普通电脑中,CPU就提供了帮助电脑快速运行。玩游戏的时候需要显卡提供,帮助电脑快速处理图形。 而在 人工智能中,需要有类似CPU和GPU的硬件来提供,帮助算法快速运算出结果。 之前在算法里讲过,在制造木桌的过程中,工厂的流水线就是算法。 在那个例子中,工厂中的机器就像,机器越好越先进,制造的过程就越快。 ? 越大,速度越快 维基百科版本 Techpedia版本 是使用计算机技术完成给定目标导向任务的过程。 可以包括软件和硬件系统的设计和开发,用于广泛的目的 – 通常构建,处理和管理任何类型的信息 – 以帮助追求科学研究,制作智能系统,以及创建和使用不同的媒体娱乐和交流。 查看详情 维基百科版本 是使用计算机的任何活动。它包括开发硬件 和软件,以及使用计算机来管理和处理信息,进行交流和娱乐。是现代工业技术的一个至关重要的组成部分。

    2.6K30发布于 2019-12-18
  • 来自专栏大语言模型,算力共享

    共享:环形结构的分配策略

    ​目录共享:环形结构的分配策略方法签名方法实现注意事项nodes.sort(key=lambda x: (x[1].memory, x[0]), reverse=True)end = round (start + (node[1].memory / total_memory), 5)共享:环形结构的分配策略这段代码定义了一个名为RingMemoryWeightedPartitioningStrategy

    96120编辑于 2024-07-26
  • 来自专栏科技云报道

    之后,“存”上位

    芯片的摩尔定律逐渐逼近物理极限,存开始从幕后走向台前,成为AI领域下一个关键赛点。 长期以来,伴随企业数字化转型所建设的“烟囱式”AI基础设施各自为战,数据奔流,价值却困于“堰塞湖”。 存中心作为新型的数据基础设施,正成为AI时代数据流通和融合应用的破题关键。 AI时代的 “数据决定论” AI技术的发展离不开三大要素:数据、算法和。 在训练方面,高性能并行文件系统可以提升大模型训练效率,超大带宽和容量支持超万卡集群无瓶颈扩展,EB级扩展能力适应海量数据,加速卡直通技术使数据从存储到“一跳直达”。 构建AI时代新型 “数据粮仓” 与聚焦在“”不同,数据存聚焦在“数”和“存”,是数据生产要素处理的综合能力体现,肩负着为数字经济各种场景提供源源不断的“生产资料”的使命。 将目光投向更长远,新型AI存储很可能是撬动人工智能时代杠杆的另一个支点,“以存强”“以数助”亦是弯道超车的重要落点。当AI产业具备扎实的存底座,才能登高远眺,看见AI时代最美的风景。

    42000编辑于 2025-06-19
  • 来自专栏新智元

    今夜无显卡!老黄引爆Rubin时代,6颗芯狂飙5倍

    全球AI告急?老黄霸气回应:Vera Rubin已全面投产。 这是新一代的怪兽,也是对上一代霸主Blackwell的降维打击—— 推理Token成本直接暴降10倍,性能狂飙5倍。 传闻已久的RTX 50 Super系列,受困于GDDR7显存的「产能地狱」,大概率已经胎死腹中。 它搭载第三代Transformer引擎,为AI推理提供50 PFLOPS的NVFP4。 同样的模型和响应延迟,成本可以直接下降到原来的1/10。 所以,模型可以跑得起百万token的长下文,企业级AI应用也可以部署了。 拥有Petaflop级AI,支持在本地运行高达1万亿(1T)参数的超大规模模型。

    42810编辑于 2026-01-13
  • 来自专栏素质云笔记

    keras系列︱keras是如何指定显卡且限制显存用量

    keras在使用GPU的时候有个特点,就是默认全部占满显存。 若单核GPU也无所谓,若是服务器GPU较多,性能较好,全部占满就太浪费了。 于是乎有以下三种情况: - 1、指定GPU - 2、使用固定显存的GPU - 3、指定GPU + 固定显存 一、固定显存的GPU 本节来源于:深度学习theano/tensorflow多显卡多人使用问题集 resource usage for tensorflow backend · Issue #1538 · fchollet/keras · GitHub) 在使用keras时候会出现总是占满GPU显存的情况 换而言之如果跑在一个大数据集上还是会用到更多的显存。以上的显存限制仅仅为了在跑小数据集时避免对显存的浪费而已。 来源:Tensorflow 学习笔记(七) ———— 多GPU操作 三、指定GPU + 固定显存 上述两个连一起用就行: import os import tensorflow as tf os.environ

    2K90发布于 2018-01-02
  • 来自专栏科技云报道

    更要“利”,“精装”触发大模型产业新变局?

    面对如此巨大的需求,企业如何在平衡与能耗开支的前提下,高效地利用和管理算资源,是实现降本增效的重要命题。这其中,对基础设施和软件平台的精细化运营管理成为破题的关键。 大模型对的需求是显而易见的,但更关键的点可能在于能否把更高效地挖掘出来。在不同的阶段,企业对于需求也不尽相同。 《中国发展观察报告》显示,有些中心整体利用率不足30%,大量的资源在沉睡中等待被唤醒,供需矛盾凸显。 这种演进使智能变得不可或缺,且不再局限于简单的叠加或升级,而是在多元重构驱动下实现的极致拓展与跃迁。 所谓“精装”,就是依托宁畅定制化与全栈全液能力,以栈为交付形态,从用户需求与体验出发,提供全体系软硬协同的精细化服务。

    82800编辑于 2025-03-04
  • 来自专栏大模型应用

    大模型应用:拆解大模型需求:是什么?怎么衡量?如何匹配?.64

    显存足够但不足,模型能跑但卡顿;足够但显存不足,模型直接无法加载。 三、主流显卡对比与模型适配不同显卡差异不仅体现在TFLOPs数值,还与CUDA核心数、张量核心版本、显存类型(GDDR6X/GDDR7/HBM2)密切相关,这些细节直接影响模型运行稳定性与加速效果 主流显卡核心参数对比显卡型号FP32(TFLOPs)FP16(TFLOPs)INT8(TFLOPs)核心硬件细节显存规格模型适配极限RTX 407020.541825888 CUDA核心,第 显卡显存实时监控示例以下示例实时监控模型运行时的显卡利用率、显存占用,生成动态趋势图,验证适配效果:import torchimport GPUtilimport timeimport matplotlib.pyplot 四、优化实战 我们几乎普遍的都会面临“不足但不想升级硬件”的问题,优化核心是“软件适配硬件特性”,结合显卡张量核心、显存带宽等硬件细节,通过量化、参数调整、调度优化,最大化利用率

    65864编辑于 2026-04-02
  • 来自专栏ADAS性能优化

    生存VS

    英國「金融時報」報導,鑒於美國近期祭出制裁來壓制中國電腦運能力,中國科技企業阿里巴巴和壁仞科技為了避免受制裁,正將各自最先進晶片的設計微調,以降低運處理速度。 華府10月宣布的制裁措施,禁止任何運能力超過一定門檻的半導體產品出貨至中國除非得到许可。這打亂了上述中國科技企業的發展計畫。 但中國工程師表示,要判斷哪些晶片產品不受制裁並不簡單,因為華府對於如何計這個速率沒有清楚規範。 根據研究集團伯恩斯坦(Bernstein)計,從壁仞官方網站存檔紀錄來看,在美國宣布制裁之前,壁仞首款處理器BR100的規格算出傳輸率是640 GB/s,超過限制門檻;但根據壁仞官網目前發布的BR100

    1.2K20编辑于 2022-12-20
  • 来自专栏乌龟哥哥默认学习专栏

    挖矿显卡力排行对照表

    鉴于近期加密货币大涨,导致很多小(韭)白(菜)纷纷入场,然后很多人都在问显卡挖矿与功耗是多少;网上虽然有,但是由于时效关系,数据并不准确,相差甚远,那么本文将列出NVIDIA显卡跟AMD显卡热门的显卡挖矿与功耗排名数据 显卡表 注:值与你使用的内核、超频、功耗有关,有些体质好的卡能轻松超频很多,而有的可能会出现很多拒绝与无效。 NVIDIA与AMD显卡挖矿力排行表 AMD显卡挖以太坊(ETH)力排行: 由低到高排名,A卡无法挖CFX(收益没有ETH高)。 (ETH)力排行: 由低到高排名 显卡型号 币种 功耗 1070 ETH 31M 130W 2060 ETH 31M 135W 1660 SUPER ETH 32M 72W 1660TI ETH CFX力排行 注:CFX只有N卡适合挖,6G显存以上,且2系的显卡收益比其他的高一些,而3系还是挖ETH收益高一些,不过这要看币价、全网、难度来计算。

    21.9K111发布于 2021-03-25
  • 来自专栏运维开发王义杰

    函数计算

    对于一个函数消耗的,我们通常用它的运行时间来衡量,例如在基准测试中。你可以测量一个函数运行一次(或者多次)所需要的时间,然后用这个时间来比较不同函数或者同一个函数的不同实现。 然而,这种方法并不能直接测量一个函数消耗的CPU。为了获得这种信息,你可能需要使用一种叫做CPU profiling的技术,它可以测量程序在CPU上花费的时间。Go的pprof包提供了这种功能。

    74110编辑于 2023-08-16
  • RTX 50系列显卡80%成本来自GPU芯片和显存

    虽然英伟达RTX 50系列显卡自上市以来,一直面临缺货、涨价问题,其实这倒也不是显卡品牌厂商、经销商故意饥饿营销再加价,而是利润基本都让英伟达赚走了。 英伟达除了出售自己的显卡外,也长期将GPU芯片、显存颗粒打包卖给AIC(Add-in-Cards)合作伙伴,而RTX 50系列首次使用的GDDR7显存的成本又非常高,如果这些AIC合作伙伴按建议零售价( 近日,B站UP主@51972 组织了一场RTX 5080显卡大型横评,一个月前就开始测试了,一共有多达31块卡参与,但都来之不易,有的是高价买的,有的是找人借的。 该UP主透露,他在沟通的过程中得知,原价卡确实让工厂很难执行,因为单单是GPU、显存的物料成本就占了总体的多达80%,而好点的散热器、包装陈本也要几十甚至接近100美元。

    26010编辑于 2026-03-19
  • 来自专栏大模型应用

    大模型应用:大模型优化方案:识别突破隐性瓶颈达到效能最大化.65

    一、引言 在大模型落地实践中,我们都会面临一个共性困惑:明明显卡达标、模型量化适配,实际运行时却始终跑不满,甚至出现卡顿、显存溢出等问题。 ,在平常我们可能普遍将问题归咎于显卡性能不足,但实战中很多实际情况的浪费源于隐性瓶颈。 精度:同一显卡随精度递减而倍增,如RTX 4090 FP3283 TFLOPS、FP16 166 TFLOPS、INT8 332 TFLOPS,核心逻辑是数据字节数越少,单位时间运算次数越多 企业推理2.1 高并发场景:调度最大化核心目标:在有限显卡集群中支撑多用户并发访问,避免单用户占用全量,提升集群整体利用率。 很多人一遇到不够就想换显卡,殊不知80%的浪费都来自隐性瓶颈:系统级的CUDA、驱动适配不到位,会直接屏蔽显卡一半性能;模型里的QKV冗余运算、权重浪费,默默消耗着40%;就连数据加载慢,都能让

    30243编辑于 2026-04-03
领券