首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏GPUS开发者

    NVIDIA Blackwell RTX GPU与CUDA 12.8框架更新指南

    随着NVIDIA Blackwell RTX GPU的发布,为了确保应用程序与这些新一代GPU的兼容性和最佳性能,应用开发者必须更新到最新的AI框架。 这确保了CUDA应用程序能够充分利用Blackwell GPU的计算能力。 稳定性问题:如果不满足上述条件,您可能会在Blackwell上遇到稳定性问题。因此,强烈建议更新到CUDA Toolkit 12.8。 CUDA 12.8的特性 CUDA 12.8是首个原生支持Blackwell(计算能力10.0和12.0)的CUDA版本。 llama.cpp llama.cpp与最新的Blackwell GPU兼容。

    4.3K10编辑于 2025-02-04
  • 来自专栏AI分享

    Blackwell Ultra GPU未来展望:万亿参数模型训练

    英伟达最新发布的Blackwell架构GPU与微软Azure AI平台的深度融合,为此提供了革命性的解决方案。 Blackwell Ultra GPU:万亿参数模型的硬件基石1.1 架构设计的突破性创新Blackwell架构通过全栈系统性优化,突破了超大规模AI模型训练的算力天花板。 AI的Blackwell深度集成战略解析与实施路径2.1 云计算基础设施的体系化重构正在构建面向下一代AI的智能计算基座,通过多维度的硬件协同设计实现与Blackwell架构的深度融合。 超大规模科学仿真在 Quantum量子计算平台上,Blackwell架构正重新定义分子动力学模拟的边界。 对于开发者而言,掌握Blackwell与协同技术栈,将是解锁下一代AI潜能的关键。

    4.4K00编辑于 2025-04-11
  • NVIDIA Blackwell架构在MLPerf训练基准测试中大获全胜

    为NVIDIA Blackwell和NVIDIA Blackwell Ultra GPU提供动力的Blackwell架构,在最大规模及每个提交的规模下,于所有基准测试中都提供了最高性能。表1. 2 70B LoRA微调0.40分钟512块Blackwell Ultra GPUFLUX.112.5分钟1,152块Blackwell GPUDLRM-DCNv20.71分钟64块Blackwell 率先使用NVFP4提交FP4训练结果低精度AI数据格式的创新是Blackwell架构(为BlackwellBlackwell Ultra GPU提供动力)带来性能提升的关键推动因素。 与Blackwell GPU相比,Blackwell Ultra GPU包含了几项重要增强:1.5倍峰值NVFP4吞吐量。 * 当比较上一轮2,496块Blackwell GPU提交与本轮2,560块Blackwell GPU提交的性能时,每块Blackwell GPU的有效性能也提高了42%。

    20000编辑于 2026-01-17
  • 来自专栏IT技术订阅

    英伟达Blackwell GPU技术特点性能优势及行业应用

    本文将深入探讨 Blackwell GPU 的关键技术特点、性能优势及其在行业中的潜在应用。 二、Blackwell GPU 的关键技术特点 2.1 晶体管数量与制造工艺 晶体管数量:Blackwell GPU 包含了 2080 亿个晶体管,这一数量是 NVIDIA 之前产品的数倍,标志着芯片复杂性和性能的巨大飞跃 三、Blackwell GPU 的性能优势 3.1 高算力 AI 性能:Blackwell B200 GPU 提供了高达 20 petaflops 的 FP4 算力,这一数字不仅令人震惊,更是在 AI 四、Blackwell GPU 的应用前景 4.1 企业级应用 大规模部署:NVIDIA 对 Blackwell GPU 的市场前景充满信心,期望企业能够大量采购并将其应用于更大规模的设计中。 五、结论 NVIDIA Blackwell GPU 的发布标志着 AI 和 HPC 领域的一个重要里程碑。通过一系列的技术创新,Blackwell GPU 实现了前所未有的计算性能、能效和灵活性。

    1.1K10编辑于 2024-11-23
  • 来自专栏GPUS开发者

    NVIDIA发布地表最强GPU芯片Blackwell到底是纪念谁?

    Blackwell GPU 的诞生不仅标志着NVIDIA在人工智能领域的巅峰成就,更是对数学家和统计学家David Blackwell的致敬。 Blackwell生平 David Blackwell的一生宛如一部传奇,充满了挑战。 Blackwell在综合学校里度过了他的童年,他的聪明才智很快就被老师们所发现。老师们甚至两次建议他跳级,让他在十六岁时就顺利毕业于高中。 一开始,Blackwell的学习之路很顺利。 Blackwell对AI发展的贡献 -博弈论 Blackwell在博弈论领域的贡献对他的职业生涯产生了深远的影响。博弈论,简单来说,就是研究个人或群体在面对相互依存的选择时如何做出决定的数学分支。 Rao-Blackwell定理 虽然 Rao-Blackwell 定理属于统计学范畴,但是它的影响超越了传统定义,尤其是在人工智能领域。

    77110编辑于 2024-03-25
  • 来自专栏AI SPPECH

    26:【CUDA Tile Blackwell】新架构报错 no kernel image compute capability不匹配

    作者: HOS(安全风信子) 日期: 2026-01-01 主要来源平台: GitHub 摘要: 本文详细分析2026年NVIDIA最新的CUDA Tile和Blackwell架构在PyTorch 背景动机与当前热点 在2026年,NVIDIA推出了全新的Blackwell架构和CUDA Tile技术,为AI训练和推理带来了显著的性能提升。 本节核心价值 分析2026年CUDA Tile和Blackwell架构的最新特性 探讨新架构与现有深度学习框架的兼容性问题 提供针对新架构的优化策略 2. 架构兼容性矩阵 本文实现的Blackwell架构兼容性矩阵能够: 明确不同深度学习框架对Blackwell架构的支持情况 指导用户选择与Blackwell架构兼容的软件版本 预测可能的兼容性问题并提前规避 架构白皮书 - NVIDIA Blackwell架构详解 附录(Appendix): 完整的环境配置脚本 #!

    13910编辑于 2026-02-23
  • 来自专栏机器之心

    专为DeepSeek类强推理加速,老黄拿出Blackwell Ultra,下代架构性能还要翻倍

    在详细介绍 Keynote 内容之前,我们划下重点: Blackwell 已经全面投产。 Blackwell 发布超大杯,性能猛增 Blackwell 架构的 AI 加速卡现在已经全面进入量产阶段,正在推动下一波 AI 基础设施浪潮。「这是我们改变计算架构基础的重要一步,」黄仁勋说道。 将八个 NVL72 机架放在一起,就可以获得完整的 Blackwell Ultra DGX SuperPOD:288 个 Grace CPU、576 个 Blackwell Utlra GPU、300TB 需要注意的是,Blackwell Ultra GPU(GB300 和 B300)与 Blackwell GPU(GB200 和 B200)是不同的芯片。 在今天的 Keynote 中,英伟达很快就介绍完了 Blackwell Ultra,转而展示了其下一代架构 Vera Rubin—— 其全机架性能应是同类 Blackwell Ultra 的 3.3 倍

    34710编辑于 2025-03-20
  • 英伟达 Blackwell GPU:AI加速器技术与市场分析

    本文旨在对这两种路线的最新代表——谷歌的 Ironwood TPU 和英伟达的 Blackwell 平台——进行一次全面、客观的深度剖析。 本章节将直接对比谷歌 Ironwood TPU 和英伟达 Blackwell GPU 的关键硬件参数,以揭示它们在设计理念上的根本差异。 下表清晰地展示了两种芯片在关键技术规格上的对比,其中 Blackwell 平台的数据以 B200 型号为基准。 英伟达的机柜级架构:灵活性与通用性的典范相比之下,英伟达的 Blackwell 平台延续了其成熟的、以机柜为基本扩展单元的架构理念,强调灵活性和通用性。 机柜级计算域:Blackwell NVL72 系统将 72 个 GPU 通过高速 NVLink 紧密连接成一个计算单元,总算力达到 0.36 ExaFLOPS。

    53010编辑于 2025-12-06
  • 来自专栏新智元

    最新Blackwell GPU架构成本揭秘,彰显老黄的「仁慈」

    下面就让我们从规格参数、工艺节点、封装设计等方面来深入分析一下新一代Blackwell GPU的系统、定价、利润,以及Jensen's Benevolence(老黄的仁慈) 在这个大模型的时代,英伟达正处于世界之巅 不过这次新系列GPU的定价,可能会让很多人大吃一惊,也许我们会说「B」代表的不是「Blackwell」架构,而是「Benevolence」(老黄的仁慈)。 B100 / B200规格 首先,Blackwell架构将2个GPU芯片粘在了一起,而工艺制程仍然保持在4nm,跟上一代的Hopper架构一样。 Umbriel 和 Miranda Blackwell的第一个版本代号叫Umbriel,它保留了前代PCIe Gen 5、400G网络等,B100风冷式700W甚至可以无缝接入现有的H100和H200服务器底板

    66510编辑于 2024-04-12
  • 来自专栏芯智讯

    英伟达将推AI PC芯片:整合Cortex-X5 CPU及Blackwell GPU内核

    5月29日消息,据The register报道,近日业内有传言称,英伟达(Nvidia)正准备推出一款将下一代 Arm Cortex CPU内核与其 Blackwell GPU内核相结合的芯片,主要面向 据悉,这家 GPU 巨头正在准备一款SoC,计划将Arm最新的超大核Cortex-X5 核心与其最近推出的 Blackwell 架构的 GPU IP相结合。 然而,对于针对PC的Arm SoC来说,Blackwell GPU似乎是一个奇怪的选择,因为它是英伟达目前最新的高性能GPU设计。 然而,一些报道表明,英伟达将使用迄今为止未经宣布的面向消费者的基于Blackwell 的RTX GPU,以及对于LPDDR6内存的支持。

    20210编辑于 2024-06-07
  • 来自专栏HyperAI超神经

    英伟达黄仁勋发布GB200,比H100推理能力提高30倍,能耗降低25倍,将AI4S能力做成微服务

    就在刚刚,老黄在长达 2 小时的分享中,接连扔下「AI 核弹」: * 新一代 GPU平台 Blackwell * 首款基于 Blackwell 的芯片 GB200 Grace Blackwell * Blackwell 架构的命名是为了纪念首位入选美国国家科学院 (National Academy of Sciences)的非裔学者 David Harold Blackwell。 在性能上,Blackwell 拥有 6 项革命性技术加持: * 世界上最强大的芯片: Blackwell 架构 GPU 采用定制的 4NP 台积电工艺制造,内含 2080 亿个晶体管,通过 10 TB/ GB200 Grace Blackwell 首款基于 Blackwell 的芯片命名为 GB200 Grace Blackwell Superchip,其通过 900GB/s 的超低功耗 NVLink 基于全新 Blackwell 架构的 DGX B200 搭载了 8 个 Blackwell GPU 和 2 个第五代英特尔至强处理器。

    93710编辑于 2024-03-25
  • 来自专栏新智元

    老黄祭出新核弹B200!30倍H100单机可训15个GPT-4模型,AI迎新摩尔时代

    Blackwell B200 GPU,是如今世界上最强大的AI芯片,旨在「普惠万亿参数的AI」。 Blackwell GPU增加了对FP4和FP6的支持 另外,Blackwell还配备了RAS引擎。 网友们纷纷惊叹,Blackwell再一次改变了摩尔定律。 英伟达高级科学家Jim Fan表示:Blackwell,城里的新野兽。 - GPT-4-1.8T参数在2000张Blackwell上可在90天内完成训练。 新摩尔定律诞生了。 新超算可训万亿参数大模型 当然,有了Blackwell超级芯片,当然还会有Blackwell组成的DGX超算。 这样,公司就会大量购入这些GPU,并将它们封装在更大的设计中。

    38810编辑于 2024-03-25
  • 来自专栏机器之心

    英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍

    2080 亿个晶体管的 Blackwell 同行不知应该怎么追 虽然全球的科技公司都还在争抢 H100 芯片,但新一代产品已来。 在今天的大会上,英伟达正式推出了 Blackwell 平台。 Blackwell 的名字旨在纪念第一位入选美国国家科学院的黑人学者、数学家和博弈论学家 David Harold Blackwell,它继承了 Hopper GPU 架构,为加速计算树立了新的标准。 英伟达表示,Blackwell 架构的 GPU 预计将于今年晚些时候发货。 David Harold Blackwell。 黄仁勋表示,Blackwell 将成为世界上最强大的芯片。 黄仁勋提到,Blackwell 不是芯片名,而是整个平台的名字。

    56210编辑于 2024-03-19
  • 英伟达GTC与黄仁勋的“新故事”

    一句话理解就是,Blackwell Ultra= Blackwell大内存版本。 2)Blackwell Ultra NVL72:AI推理专用机柜Blackwell Ultra NVL72官方图和GB200 NVL72一样,英伟达今年也推出了类似的产品Blackwell Ultra 4500 Blackwell 以及RTX PRO 4000 Blackwell笔记本GPU:RTX PRO 5000 Blackwell、RTX PRO 4000 Blackwell、RTX、PRO 3000 Blackwell、RTX PRO 2000 Blackwell、RTX PRO 1000 Blackwell以及RTX PRO 500 Blackwell数据中心 GPU:NVIDIA RTX PRO “Blackwell Family”(Blackwell家族),中文翻译过来“Blackwell全家桶”再合适不过。

    57910编辑于 2025-03-24
  • 来自专栏福大大架构师每日一题

    Blackwell GPU支持+编译性能狂飙,AI开发者必看10大升级

    重点内容 测试版(Beta): • Torch.Compile 支持 Torch 函数模式 • Mega 缓存 原型(Prototype): • 支持 NVIDIA Blackwell 架构 • PyTorch c10d • 实现了ncclCommInitRankScalable 分布式检查点(DCP) • 缓存保存计划,减少规划步骤开销 • 构建HF格式的存储读取器/写入器,用于写入检查点 CUDA • Blackwell • SGD和Adam(W)支持可微学习率和权重衰减 构建前端 • 通过HomeBrew安装的PyTorch启用OpenMP支持 • 在pytorch中为ppc64le架构启用onednn • 启用对Blackwell Python暴露 • 为embedding_bag增加输入索引非负范围检查 • 修复代码风格检查警告 • 修改内存固定(pin memory)行为,避免无CUDA上下文时自动初始化 • 为SM 10.0(Blackwell 防止运行时崩溃 • 只针对 SM 9.0 使用 f8f8bf16 行级缩放矩阵乘法 • 修复 Upsample2D 的 64 位索引问题 • 修复 _preload_cuda_deps 中的路径查找 • 支持 Blackwell

    1.7K10编辑于 2025-04-28
  • 来自专栏机器之心

    RTX 5090最新爆料:架构大改,性能提升70%

    早在 2021 年,知名爆料者 kopite7kimi 就称英伟达将推出代号为「Blackwell」的 GPU 架构。 Blackwell 有望成为 Ada Lovelace 架构的继任者,被认为是 RTX 5090 的架构。 与 Hopper/Ada 架构相比,Blackwell 计划将其覆盖范围扩展到数据中心和消费级 GPU。 据外媒 videocardz 报道,kopite7kimi 基本认同这些信息,但他在个人推特上表示:「Blackwell 不会明显增加 GPC、TPC 等计算单元的数量,但单元结构可能会进行重大重组。」 此外,kopite7kimi 还提到 Blackwell 架构 GPU GB100 采用了多芯片模块(MCM)设计。这表明英伟达将采用先进的封装技术,提供更大的灵活性,来为消费者定制芯片。

    87820编辑于 2023-09-20
  • 来自专栏磐创AI技术团队的专栏

    英伟达发布全球最强芯片B200!AGI的时代真要提前到来?

    在AI领域大语言模型的推理工作效率上,Blackwell B200能够提升30倍的效率!这不仅是一次技术的飞跃,更是AI时代的一个重要里程碑! 了解更多的AI工具也欢迎大家访问开放猫AI导航站:openmao.cn 那么,Blackwell B200到底有哪些新的特点?表现如何? 1.巨大的性能提升:Blackwell B200芯片拥有 2080 亿个晶体管,相较于上一代 H100 芯片只有800亿个晶体管,算力提升了 6 倍。 现在同样时间内用2000个Blackwell架构的GPU就可以做到,且功率仅为4兆瓦。 在AI技术不断突破的今天,英伟达的Blackwell B200芯片为我们描绘了一个更加智能的未来蓝图。作为AI时代的见证者和参与者,我们有幸见证这一历史性的变革。

    49910编辑于 2024-04-03
  • 来自专栏AIGC新知

    英伟达GTC | 见证AI的变革时刻

    Blackwell架构GPU 滑动查看更多→ 训练这些越来越大的transformer模型,我们也需要更强的算力。 Blackwell 架构GPU 登场 老黄展示Grace-Blackwell平台(两个Blackwell GPU、四个die与一个Grace Cpu连接在一起)。 GB200将两个B200 Blackwell GPU与一个基于Arm的Grace CPU进行配对。新芯片拥有2080亿个晶体管,所有这些晶体管几乎同时访问与芯片连接的内存。 如果使用Blackwell GPU,只需要2000张,同样跑90天只要消耗四分之一的电力。同时生成Token的成本也会随之降低。

    60510编辑于 2024-10-08
  • 来自专栏芯智讯

    黄仁勋:Blackwell芯片不少零组件是由大陆企业提供的!

    那么是否英伟达最新的Blackwell平台,长电科技也有提供一些助力呢?) 黄仁勋指出,AI正经历转型,目前正是AI世界加速开始的时候,“我们才刚起步,台积电一直是我们优秀的合作伙伴”。 针对美国新的出口管制政策对于英伟达在华业务的影响,黄仁勋表示,新推出的Blackwell芯片也将会受到美国出口管制政策的限制。 黄仁勋前一日在接受CNBC专访时表示,每颗Blackwell芯片将要3-4万美元。 英伟达首席财务官财务长柯蕾丝(Colette Kress)则表示,英伟达Blackwell芯片和相关系统将于今年稍后上市,明年出货量会大幅增加。 虽然SK海力士没有透露其新 HBM3E 的客户名单,但 SK 海力士高管告诉《日经亚洲》,新芯片将首先发运给英伟达,并用于其最新的 Blackwell GPU。

    48510编辑于 2024-03-26
  • 来自专栏新智元

    刚刚,老黄携GB300震撼登场!DeepSeek推理暴涨40倍加速全球最快,26年Rubin问世

    首先,是对训练和测试时推理能力进行大幅提升,并将在今年下半年问世的Blackwell Ultra。 根据英伟达官方博客介绍,Blackwell已经让DeepSeek-R1打破了推理性能的世界纪录。 而与Blackwell相比,Blackwell Ultra芯片还有超强进化! 它的显存从192GB提升到了288GB。 比较一下Hopper的峰值年份和Blackwell的第一年,会发现:AI正处于转折点。 Blackwell发货才一年,我们就见证了全球AI基础设施的惊人增长。 说到这,老黄举了个例子,在推理模型上,Blackwell的性能直接比Hopper高了40倍,真的很了不起! 「一旦Blackwell开始大规模出货,Hopper可能连送人都没人要了。」 而同样的工厂如果用Blackwell,虽然芯片数量减少,但效率更高,整体性能更强。

    36710编辑于 2025-03-20
领券