AI巨擘创世纪：英伟达的CUDA豪赌

AGI小咖

发布于 2025-12-22 11:28:55

3980

导言：一场远见卓识的豪赌

2025年7月，英伟达的市值如火箭般冲破4万亿美元（大约等于A股前20大市值的公司之和）的穹顶，登顶全球资本市场，成为名副其实的 生成式AI (Generative AI) 时代的巨擘。

继前期百度百舸、阿里HPN、腾讯星脉、字节跳动MegaScale等AI Infra万卡集群系列后，AI巨擘创世纪系列将与您分享4万亿AI帝国的起点竟来自于4万美元的Dennys餐厅创业、一场百亿豪赌以及如何从游戏王者进化为定义AI时代的唯一“卖铲人”，这其中的关键里程碑节点的战略选择、护城河与新时代的挑战等。作为AI巨擘创世纪系列的开篇之作——我们将带你一起重温英伟达自1993年至2012年的光辉岁月，揭秘其CUDA诞生背后，那段无人看好的六年“绝望之谷”，看黄仁勋如何用一场惊心动魄的豪赌，开启一个新纪元”

1. 游戏为王：GPU的创世纪 (1993-2005)

1.1 餐厅里的创世神话

1993年2月17日正值黄仁勋（Jensen Huang）40岁生日，与另外两位好友——曾在Sun Microsystems工作的克里斯·马拉科夫斯基（Chris Malachowsky）和柯蒂斯·普里姆（Curtis Priem）为了共同的理想和抱负相聚于黄仁勋曾经打工的Dennys餐厅，一起商议以 4万美元 的启动资金创立了本AI巨擘创世纪系列 的主人公——英伟达。

据说马拉乔斯基负责硬件设计，普里姆学习软件架构，黄仁勋负责业务决策，在三人中，更年轻、懂技术还懂业务市场的黄仁勋成了最终的拍板者。

英伟达的三位创始人：普里姆（左）、黄仁勋（中）、马拉乔斯基（右）

1.2 NV1惨败和世嘉的救命稻草

俗话说得好，“万事开头难”，公司的首款产品NV1芯片惨以惨败告终，后来复盘究其因——原来是在设计上雄心勃勃试图将2D/3D图形、音频处理和游戏端口集成于一体、采用了“二次曲面（quadratic surfaces）”渲染技术与彼时整个行业正迅速向“多边形（polygons）”标准靠拢市场主流背道而驰。

在生死存亡之际得益于一笔来自日本游戏巨头世嘉（Sega）的700万美元订单，成了拯救公司的救命稻草。尽管后续为世嘉土星游戏机开发的NV2芯片项目也未能成功，但这笔资金为英伟达赢得了宝贵的喘息之机，使其得以重新审视并调整战略方向。

1.3 “黄氏定律”和首款GPU

痛定思痛后黄仁勋为公司确立了此后数十年都严格遵守的核心战略：

●其一，彻底放弃封闭的技术路线，全面拥抱行业主流标准如微软的Direct3D和开放的OpenGL；

●其二，建立一种后来被称为“黄氏定律”的产品迭代节奏——大约每六个月发布一款新产品，以绝对的性能优势超越所有竞争对手。

这一战略转向的效果立竿见影尤其在1997年推出的RIVA 128芯片体现得淋漓尽致，该芯片在短短四个月内销量便突破100万片，并在此后助力英伟达成功“上岸”——1999年登陆纳斯达克。上市同年公司推出了革命性、世界首款“图形处理器”（GPU）产品——GeForce 256。

世界上第一款GPU：GeForce 256

1.4 游戏市场胜者为王

彼时英伟达面临着来自3dfx Interactive（一家在20世纪90年代后期以其创新性图形技术占据市场主导地位的显卡公司）及其强大的Voodoo系列显卡（凭借其开创性的3D加速功能和卓越的游戏性能，成为当时游戏玩家的首选）和专有Glide API（一个直接针对其硬件优化的、实现最佳游戏性能的关键接口）的激烈竞争，但英伟达凭借GeForce系列和更对开放API的兼容并包两大杀手锏在这场竞争中脱颖而出——2000年英伟达以收购的方式将3dfx的核心资产和人才收入囊中，迅速巩固了其在PC图形市场的领导地位。

回顾这一时期的发展，我们可以清晰地看到：消费级游戏市场以其对更高图像保真度的无尽追求，不仅为英伟达在芯片领域的巨额研发投入提供源源不断的“现金流”提供了雄厚的资金支持，更是在无意之中为其未来的计算革命奠定了硬件基础的关键孵化器，开创游戏市场的GPU时代。

关于CPU和GPU的架构区别可以查看以下图片，从架构图中清晰地可以看到：

左图CPU架构显示了少数强大的“核心（Core）”，专为处理复杂逻辑的串行任务设计。右图GPU架构则显示了数量庞大的简单核心，专为处理大规模并行任务设计。

2. 世纪豪赌：CUDA的诞生与坚守 (2006-2012)

2.1 一篇论文引发的战略抉择

英伟达历史上最关键的战略转折源于2003年斯坦福大学的一个研究团队在计算机图形学顶级会议SIGGRAPH上发表的论文——《Brook for GPUs: Stream Computing on Graphics Hardware》。

该论文最核心的观点是通过一个编译器和运行时系统，可以将GPU从专用的图形硬件中抽象出来，改造为一个强大的、面向通用计算的流处理器。

由此引发了英伟达历史上最具争议、最精准预判和战略抉择意义的矛盾时刻——联合创始人之一的黄仁勋亲自带着一张50万美元的支票和当时英伟达最先进的GPU原型硬件找到了该论文的第一作者——首席研究员伊安·巴克（Ian Buck）并成功将其招入麾下，并最终孵化出了英伟达历史上最具决定性、划时代意义的产品——2006年正式推出CUDA（Compute Unified Device Architecture，统一计算设备架构）。

2.2 技术革命：CUDA是什么？

CUDA是一个并行计算平台和编程模型，旨在将GPU从专用的图形硬件中彻底解放出来，转变为一种通用的并行计算处理器，一经推出标志着英伟达从一家图形芯片公司向一家计算平台公司的根本性战略转型。

在CUDA出现之前利用GPU进行通用计算（GPGPU）是一种“黑客”行为。开发者必须借助OpenGL、Direct3D等图形API极为繁琐且效率不高的操作过程才可以将计算问题（如矩阵乘法）强行伪装成图形问题（如纹理渲染），而当时全球范围内真正懂得如何利用GPU底层能力进行计算的专家不过几百人。

CUDA的革命性在于 帮助我们非常简单地使用GPU完成通用计算，它提供了一个全新的编程模型和API，通过扩展C/C++等主流编程语言，让开发者能够首次绕过复杂的图形接口直接、显式地利用GPU内部数以千计的并行核心进行通用计算编程。

CUDA和CUDA-X AI生态系统

为了更好地理解CUDA的工作原理，我们举一个简单的例子：假设需要对一张6亿像素的图片执行每个像素点进行一次计算处理操作：传统的CPU采用串行方式按顺序执行6亿次任务，而一块拥有16,384个CUDA核心的GPU，则可以将这6亿个任务分配给所有计算核心并行处理。

CUDA平台在其中扮演举足轻重的角色：开发者利用CUDA平台上的工具能够方便地将数据从主内存复制到显存，编写在每个CUDA核心上运行的计算任务（称为“核函数”），并将这成千上万个任务分配给GPU，最后再将计算结果从显存传回主内存。

当然这一软件层面的革命与以GeForce 8800 GTX为代表的Tesla架构为代表的硬件微架构变革息息相关，具体体现在引入统一着色器模型（Unified Shader Model），用一个由通用流式多处理器（Streaming Multiprocessors, SMs）组成的网格，取代了过去独立的、功能固定的顶点和像素处理管线。

2.3 “绝望之谷”中的坚守

然而，这一宏伟的转型之路并非一帆风顺，而是充满了严峻的挑战，英伟达为此度过了长达六年的“绝望之谷”。

首先是技术与学习曲线的陡峭。CUDA虽然极大地简化了GPGPU编程，但其本身也给开发者带来一种全新的“主从式”卸载编程模型，不得不在硬件层面尤其是在CPU（主机）和GPU（设备）之间管理内存和数据传输，并理解复杂的线程层级（线程网格、线程块、线程束），这对于习惯了串行编程习惯逻辑的开发者来说是一个巨大挑战。

其次是市场阻力与生态真空。在推出初期缺乏“杀手级应用”的CUDA平台，遭到了公司内外部的大量抵制，况且还是一个完全没有任何盈利前景的入不敷出的项目，甚至一度传出华尔街的股东们集体否决公司向 高性能计算 (High-Performance Computing) 发展的提议。

最后是公司层面的危机。在CUDA发布后的几年里，英伟达还遭遇了严重的公司危机——因部分移动芯片和GPU存在制造缺陷导致“异常高的故障率”（即著名的“颠簸门”事件），除了法律纠纷和商业信誉的破损外，公司为此付出了数亿美元的代价和股市双杀（市值在短期内蒸发超过30亿美元）。

2.4 百亿投资，生态为王

2006至2012年之间在CUDA上累计研发投资超过百亿元美元，而投资回报率为0，无疑给AI巨擘创世纪上增添了隆重战略定位色彩一笔。

如今穿越周期蓦然回首，我们发现英伟达真正的壁垒，早已超越了芯片硬件本身的速度与激情，而是由CUDA平台所一手缔造的、几乎无法撼动的开发者迁移成本。这条护城河的基石，便是其麾下超过400万的全球开发者军团围绕CUDA丰富的专有库（如cuBLAS, cuDNN, NCCL, TensorRT）编写了数以亿行计的深度依赖代码技术沉淀、一个悉心培育庞大的支援体系——活跃的开发者社区、海量的教程文档、数万名认证专家以及无数优化好的第三方模型与应用，极大地降低了新开发者融入的门槛，同时又以指数级难度增加了存量用户“出走”的成本。

当竞争对手仍在短期的市场份额中反复拉扯时，英伟达早已提前为波澜壮阔的AI时代，修建好了唯一的超级港口，静待巨轮的到来。

值得庆幸的是国内同样背靠游戏业务这一源源不断的现金流的腾讯也做了颇为相似的布局——2025年9月16日在腾讯全球数字生态大会主峰会上，腾讯宣布已全面适配主流国产芯片，并积极参与和回馈开源社区。如果说英伟达为自己的硬件舰队修建了专属的超级港口，那么腾讯则致力于为新兴的国产芯片船队建设现代化的母港。这预示着一个更多元、更有活力的计算新纪元，正拉开幕幕。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-09-17，如有侵权请联系 cloudcommunity@tencent.com 删除

游戏