首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Java项目实战

    【玩转 GPU英伟GPU架构演变

    图片一、GPU架构发展历史 1999年,英伟发布第一代GPU架构GeForce 256,标志着GPU时代的开始。 因此,GPU作为一种专门用于图形处理和运算的显卡,成为了性能升级的关键部分。英伟是一家全球领先的GPU制造商,英伟显卡作为目前最流行的显卡之一,广泛应用于游戏、数据分析、深度学习、虚拟现实等领域。 随后,英伟推出了GeForce系列显卡产品,在PC游戏和其他图形应用中获得主流地位。2006年,英伟推出第一代CUDA架构GPU,可以用于通用数据并行计算,开启了GPU计算时代。 可以看出,英伟显卡在GPU应用和体系结构上不断创新,推动着整个GPU技术发展。二、运行原理 英伟显卡属于并行结构的高性能计算设备。 六、多模态构成 英伟GPU通过流处理器、张量核心和RT核心实现了多模态设计,可以支持多种工作负载:1) 流处理器用于支持传统的图形渲染和通用GPU计算,代表了英伟GPU的渲染和计算能力。

    14K50编辑于 2023-06-08
  • 来自专栏DearXuan的博客文章

    python调用英伟GPU加速方法

    调用GPU的本质其实是调用CUDA的dll 如果你对CUDA编程不熟悉,可以参考CUDA并行编程概述 生成CUDA dll 调用显卡的方法是调用CUDA的dll,因此首先要使用CUDA生成dll 下面是示例

    1.8K30编辑于 2022-02-21
  • 来自专栏CVer

    英伟的这款GPU太强了!

    NVLink 全新 DPX 指令 NVIDIA H100 GPU 硬件上的参数太炸裂,比如有:英伟定制的台积电4nm工艺、单芯片设计、800 亿个晶体管、132 组 SM、16896 个 CUDA 图7 H100 FP8 和 A100 FP16 FP8 Tensor Core 支持 FP32、FP16 累加器和两种新的 FP8 输入类型:E4M3 和 E5M2。 下面举几个例子,1750 亿参数的 GPT-3 训练时间从 5 天缩短至 19 个小时;3950 亿参数的混合专家模型训练时间从 7 天 缩短至 20 个小时。 Performance)提升尤为重要,如下图所示: 图13 H100 计算性能改进 DPX 指令 NVIDIA H100 新推出的 DPX 指令可以将动态规划(Dynamic Programming)的性能提高多达 7 H100 包含 18 条第四代 NVLink 链路,可提供 900 GB/秒的总带宽,是 PCIe Gen 5 带宽的 7 倍。

    2K20编辑于 2022-06-13
  • 来自专栏专知

    英伟GTC大会:迄今最强GPU发布

    【导读】当地时间3月27日,英伟在美国圣克拉的 GTC 大会上推出多款产品。英伟CEO黄仁勋在会上推出多款产品,包括新一代Quadro GV100卡显、医疗图像处理的超级电脑CLARA。 我们知道,随着近年来AI技术火爆,GPU价格也是水涨船高,虽然各大巨头也有推出对应的AI芯片,但是英伟的低位仍难以动摇,此次大会也着实带给观众不少震撼,下面我们来一一解读。 ▌Quadro GV100卡显 ---- 英伟新推出的这款QuadroGV100GPU,使用RTX技术进行实时光线追踪,这将为动画产业提供一种更有效的3D图形和场景制作方法。 ▌迄今最大GPU:DGX-2 ---- DGX-2是这次英伟演讲的重点产品,DGX-2 是首款能够提供每秒两千万亿次浮点运算能力的单点服务器,它有16个VoltaGPU,具有 300 台服务器的深度学习处理能力 300万美元,英伟的售价只是1/8的花费。

    92960发布于 2018-04-08
  • 来自专栏人工智能快报

    谷歌开放TPU应对英伟GPU挑战

    尽管谷歌目前没有直接向客户销售TPU芯片,但它们的可用性对英伟(Nvidia)仍是一个挑战,英伟GPU目前是世界上使用最多的AI加速器。 甚至Google也使用了大量的英伟GPU来提供加速的云计算服务。然而,如果研究人员像预期的那样从GPU切换到TPUs,这将减少Google对英伟的依赖。 在机器学习训练中,云TPU的性能(180比120TFLOPS)比Nvidia最好的GPU Tesla V100的内存容量(64GB比16GB)高4倍。

    1.1K80发布于 2018-03-30
  • 来自专栏新智元

    全球首款7纳米GPU芯片问世,AMD抢发没给英伟机会

    今天,AMD在Computex大会上揭幕了全球首款7纳米GPU。 这款名为Radeon Vega的GPU芯片原型,将为处理深度学习和人工智能任务添加新的优化,专为服务器和工作站设计。 AMD首席执行官Lisa Su展示最新的7nm GPU AMD并没有透露7nm Vega原型的具体规格,目前知道的是它由4个高带宽内存(HBM2)组成,总共达到32GB。 如果AMD确实在台式机、移动和服务器产品线上实现7纳米处理器的批量生产,那么这对英伟以及英特尔来说都会构成极大威胁。 但是,考虑到7nm在晶圆厂的生产制作,从成本和产量上说,这片7nm GPU芯片的价格绝对不会便宜。 -7nm-gpu 4、AMD CTO接受采访:http://www.eeboard.com/news/amd-13/

    89020发布于 2018-06-22
  • 英伟拿下全球94%的独立GPU市场!

    具体到2025年第二季度,英伟以 94% 的巨大市场份额再次位居榜首,较上一季度增长 2.1%。 与此同时,英伟的竞争对手,如 AMD 和英特尔,的 GPU 市场份额分别为 6%(-2.1%)和 几乎为0%。 鉴于英伟最近在财报电话会议上的声明,GeForce RTX 50 系列显卡继续上涨并且销量非常好。鉴于游戏领域的收入创下历史新高,并且随着第四季度假期的临近,我们可以预期这些数字会攀升。 入门级和中端 GPU 仍然可以以较低的价格购买,但看起来不同地区关税的异常变化促使买家以合理的价格购买新的 GPU。 在接下来的几个月里,英伟和AMD不打算推出新款GPU英伟RTX 50“Blackwell”和AMD Radeon RX 9000“RDNA 4”系列已基本完成,唯一的惊喜可能是英特尔新的Battlemage的推出。 编辑:芯智讯-林子

    29510编辑于 2026-03-19
  • 英伟用AI智能体7天自主优化GPU内核,超越人类专家

    英伟研究员许冰刚刚在X上发出了如此断言。他所评论的,正是他与Terry Chen和Zhifan Ye为共同一作的一项英伟新研究——AVO。 1、7天自主进化,超越人类专家许冰表示:“在一些经过高度优化的注意力机制工作负载中,智能体在没有人工干预的情况下,即可在优化循环中连续搜索7天,从而超越几乎所有人类GPU专家。” 英伟的这项研究证明,AI智能体已经具备了处理多硬件子系统(如同步、内存排序、流水线调度和寄存器分配)联合推理的能力。 有意思的是,许冰在X推文中分享说,一年半之前他与Terry Chen刚开始在英伟研究智能体编程时,他们还不懂GPU编程。“所以从一开始我们就致力于开发完全自动化、无需人工干预的系统。” AVO的成果引发了一个无法回避的问题:当AI智能体能够在7天内超越人类GPU专家的优化成果,算子工程师这个职业的未来在哪里?这并非危言耸听。

    11000编辑于 2026-03-31
  • 来自专栏纯洁的微笑

    英伟、AMD恐断供高端GPU

    结果看到的是: 8月31日,全球两大 GPU 厂商 NVIDIA 和 AMD 均证实,已收到美国政府通知,即刻停止向中国出口旗下高端 AI 芯片。 图:英伟向SEC提交的文件 NVIDIA(英伟)8 月 31 日向美国证券交易委员会(SEC)提交的一份文件披露,美国政府于 8 月 26 日通知该公司,未来若要出口 A100 和 H100 芯片至中国 此次管制涉及英伟 A100 和即将出货的 H100 两款芯片,以及英伟未来推出的峰值性能等同或超过 A100 的其他芯片。 英伟应用这些高性能 GPU 芯片的系统级产品,也均在美国政府新的管制范围内。 英伟 A100 芯片 目前看,咱们民用系列 RTX 这些显卡不受影响,对游戏佬还好。 受此影响,8月31日,英伟股价下跌 2.42% ,收报 150.94 美元/股;盘后交易中,英伟股价继续下跌 6.56%。

    82220编辑于 2022-09-06
  • 来自专栏AI科技大本营的专栏

    GPU对决TPU,英伟能否守住领先地位?

    在多年的耕耘之后,英伟的凭借着先发优势和快速迭代在AI时代迅速崛起。如今,英伟GPU几乎垄断了AI芯片市场,着实让人眼红。 那么类似TPU这种的专用芯片真的能对英伟GPU产生威胁吗? 奇怪的是,这两家公司生产的新芯片都没有被广泛地使用,这或许表明TPU的实际表现并不如GPU。 TPU之所以没能超越GPU英伟GPU架构进化得非常快是其中的一个重要原因。 英伟的K40是最先应用于深度学习的首批GPU之一,它每秒执行100万次运算需要使用1400个晶体管。 在过去几年间,英伟将其GPU 的架构性能提升了大概10倍,这就是TPU到现在还无法替代GPU的主要原因。 软件很重要 就算初创公司在深度学习硬件上可能占有优势,但是在软件上英伟依旧遥遥领先。

    1.3K100发布于 2018-04-27
  • 来自专栏新智元

    英伟豪掷7亿美元收购专攻GPU初创Run:ai

    新智元报道 编辑:编辑部 Hjh 【新智元导读】历经8个月,斥资约7亿美元,英伟终于完成对AI初创Run:ai的收购,进一步完善了在AI领域的布局。 尽管双方都未确认交易金额,但据报道,英伟为收购Run:ai支付了约7亿美元。 这一交易自4月宣布以来就备受关注,但过程中遇到了监管障碍。 欧盟和美国司法部分别展开了调查,以评估英伟的收购是否会形成垄断以损害竞争。最终,欧盟于12月批准了该交易。 完成收购不久,英伟的股价便迎来了一小波上涨。 2020年,Run:ai推出了首款产品;同年,成为了英伟的紧密合作伙伴。 而这一时间,正好与英伟开始涉足AI领域(如深度学习超级采样DLSS)相吻合。 这次收购Run:ai,英伟更是将进一步整合硬件与软件,打造一个更加完整的生态闭环。 许多网友都认为,这次收购将会进一步增强英伟的垄断地位。

    23510编辑于 2025-02-15
  • 魏少军:中国应放弃采用英伟GPU

    9月11日消息,据《彭博社》报道,中国半导体行业协会集成电路设计分会理事长、清华大学教授魏少军近日在新加坡召开的一个行业论坛上表示,包括中国在内的亚洲国家应该放弃将英伟GPU用于人工智能开发,以减少对英伟的依赖 “不幸的是,我们亚洲国家,包括中国,在开发AI算法和大模型方面正在效仿美国(利用英伟GPU),”魏少军说,他作为一名学者,多年来一直为官方提供建议。 由于美国近年来持续加码限制措施,以阻止中国公司获得最尖端的AI芯片,中国本土公司也一直在努力解决英伟达人工智能加速器短缺的问题。目前中国自己的芯片制造技术仍落后于当今世界上最先进的芯片制造技术几年。 虽然英伟的H20芯片在今年被禁数个月之后,又重新获得了对华出口的许可,但是其安全性却遭到了中国官方的质疑,这也使得中国科技公司不得不对继续采购H20芯片持保留态度。 魏少军指出说,中国应该专注于创造一种专为大模型开发而设计的新型芯片,而不是继续依赖最初设计用于为游戏和工业图形提供动力的GPU架构,但他并没有详细说明新架构的具体细节。

    7910编辑于 2026-03-20
  • 来自专栏计算机视觉战队

    英伟A100 Tensor Core GPU架构深度讲解

    该A100 GPU包括一个革命性的新的“Multi-Instance GPU”(或MIG)虚拟化和GPU分区能力,特别有利于云服务提供商(CSP)。 当配置为MIG操作时,A100允许CSP提高其GPU服务器的利用率,提供多达7倍的GPU实例,而不需要额外的成本。鲁棒的故障隔离允许客户安全可靠地划分单个A100 GPU。 在台积电的7nmN7制造过程中,基于NVIDIA安培结构的GA100 GPU为A100提供动力,包括542亿个晶体管,芯片尺寸为826平方毫米。 此外,A100 GPU的片上内存显著增加,包括一个比V100大近7倍的40MB二级(L2)缓存,以最大限度地提高计算性能。 由于每个GPU和交换机有更多的链路,新的NVLink提供了更高的GPU-GPU通信带宽,并改进了错误检测和恢复功能。

    4K31发布于 2020-07-14
  • 来自专栏量子位

    英伟版ChatGPT来了,PC端部署,很GPU

    金磊 发自 凹非寺 量子位 | 公众号 QbitAI 英伟推出了自家版本的ChatGPT,名字很有GPU的味道—— Chat With RTX。 英伟的这款AI聊天机器人和目前主流的“选手”有所不同。 它并非是在网页或APP中运行,而是需要下载安装到个人电脑中。 英伟版ChatGPT 首先,值得一提的是,Chat With RTX并非是英伟自己搞了个大语言模型(LLM)。 不然就会出现各种各样的悲剧了: 不过实测被吐槽 The Verge在英伟发布Chat With RTX之后,立即展开了一波实测。 不过结论却是大跌眼镜。 那么你会pick英伟版的ChatGPT吗?

    74710编辑于 2024-02-22
  • 来自专栏大语言模型,算力共享

    英伟A100 GPU的核心数,Tesla系列

    ​ 目录GeForce RTX 什么意思英伟A100 GPU的核心数A100概述NVIDIA GPUGeForce系列(消费级)Quadro系列(专业级)Tesla系列(数据中心和AI)AMD GPURadeon 系列(消费级)注意GeForce RTX 什么意思GeForce RTX是英伟(NVIDIA)公司旗下的一个高端显卡系列。 其中,“GeForce”是英伟推出的显卡品牌,广泛应用于游戏、图形设计、视频编辑等多个领域,以其出色的图形处理能力和性能而著称。 英伟A100 GPU的核心数相当可观,具体来说,它拥有6912个CUDA核心。这些CUDA核心使得A100在高性能计算和人工智能任务中表现出色。 总的来说,英伟A100 GPU以其强大的核心数量、先进的架构和高速的内存,成为了高性能计算和人工智能领域的佼佼者。

    1.8K20编辑于 2024-07-31
  • 来自专栏新智元

    Google Colab现已支持英伟T4 GPU

    之前只提供英伟Tesla K80,现在已经支持TPU了!英伟T4 GPU耗能仅为70瓦,是面向现有数据中心基础设施而设计的,可加速AI训练和推理、机器学习、数据分析和虚拟桌面。 运行命令 ! GPU的型号正是Tesla K80,可以在上面轻松地跑Keras、Tensorflow、Pytorch等框架;最近新增加的TPU是英伟T4,可以在更广阔的天地大有作为了。 免费用GPU 在笔记本设置中,确保硬件加速选择了GPU。 = '/device:GPU:0': raise SystemError('GPU device not found') print('Found GPU at: {}'.format(device_name )) 顺利的话会出现: Found GPU at: /device:GPU:0 不顺利的话: 谷歌允许你一次最多持续使用12小时的免费 GPU

    5.3K80发布于 2019-05-14
  • 来自专栏深度学习自然语言处理

    英伟、AMD断供高端GPU

    结果看到的是: 8月31日,全球两大 GPU 厂商 NVIDIA 和 AMD 均证实,已收到美国政府通知,即刻停止向中国出口旗下高端 AI 芯片。 图:英伟向SEC提交的文件 NVIDIA(英伟)8 月 31 日向美国证券交易委员会(SEC)提交的一份文件披露,美国政府于 8 月 26 日通知该公司,未来若要出口 A100 和 H100 芯片至中国 此次管制涉及英伟 A100 和即将出货的 H100 两款芯片,以及英伟未来推出的峰值性能等同或超过 A100 的其他芯片。 英伟应用这些高性能 GPU 芯片的系统级产品,也均在美国政府新的管制范围内。 英伟 A100 芯片 目前看,咱们民用系列 RTX 这些显卡不受影响,对游戏佬还好。 受此影响,8月31日,英伟股价下跌 2.42% ,收报 150.94 美元/股;盘后交易中,英伟股价继续下跌 6.56%。

    1.3K20编辑于 2022-09-02
  • 由于成本飙升,英伟GPU涨价10-15%

    5%至10%,而AI GPU价格上涨了15%。 近年来,美国持续升级对华半导体出口管制政策,这也使得英伟在华业务受到了很大的影响。不久前,英伟对华特供的AI芯片H20也被美国列入了禁售,使得其二季度将计提55亿美元的损失。 此外,英伟还将部分Blackwell GPU的生产转移到了台积电美国亚利桑那州晶圆厂,这也加剧了其生产成本、材料和物流成本大幅上涨。 这一系列的因素都造成了英伟综合成本的上升,而“为了保持稳定的盈利能力”,英伟最近提高了几乎所有产品的官方价格,并允许其合作伙伴相应提高价格。 此外,英伟还提高了其H200和B200芯片的价格,服务器供应商相应地将价格提高了15%。

    30910编辑于 2026-03-19
  • 来自专栏GPUS开发者

    英伟机器学习5大网红GPU

    小编结合工作中客户咨询的经验,总结出英伟5大热门机器学习用GPU卡。 英伟号称Tesla M40 GPU 加速器是全球快的深度学习训练加速器,专为显著缩短训练时间而定制。 同样采用了完整的麦克斯韦架构大核心GM200,3072个CUDA核心,单精度浮点计算7TFlops,12GB显存,再加上同时发布的英伟DIGITS深度学习GPU训练系统的加持,更是让数据科学家和研究人员如虎添翼 而本月英伟最新的cuDNN5开放下载,可以在单一NVIDIA Pascal GPU上最高实现44%的训练速度提升,这使得GTX1080充满了期待。 英伟声称将推动深度学习和HPC应用性能跨越式发展:其中,全新的Pascal架构实现了巨大的性能飞跃,半精度指令为深度学习提供了超过 21 Teraflops 的峰值性能;NVLink 将CPU与GPU

    11.1K50发布于 2018-03-30
  • 来自专栏腾讯大讲堂的专栏

    英伟 GPU 十年架构演进史

    计算用的硬件也在加速从 CPU 到 GPU 等迁移。本文试图整理从英伟 2010 年开始,到 2020 年这十年间的架构演进历史。 可以在上面右图看到,GPU 的 Core 数量要远远多余 CPU,但是有得必有失,可以看到 GPU 的 Cache 和 Control 要远远少于 CPU,这使得 GPU 的单 Core 的自由度要远远低于 随着单 GPU 的计算能力越来越难以应对深度学习对算力的需求,人们自然而然开始用多个 GPU 去解决问题。从单机多 GPU 到多机多 GPU,这当中对 GPU 互连的带宽的需求也越来越多。 最后一个比较重要的特性就是 MIG(Multi-Instance GPU)了,虽然业界的计算规模确实越来越大,但也存在不少的任务因为其特性导致无法用满 GPU 导致资源浪费,所以存在需求在一个 GPU 而在安培 MIG 中,每个 A100 可以被分为 7GPU 实例被不同的任务使用。

    5.1K52发布于 2021-10-20
领券