文章/答案/技术大牛

发布

大模型为什么要跑在 GPU 上

文章来源：企鹅号 - XScan

很多人一提到大模型，第一反应就是：必须用 GPU。这句话不完全错，但也不准确。更准确的说法是：

大模型不是只能跑在 GPU 上，而是 GPU 让它“更好用”。

一、为什么不用 CPU 来跑大模型

1. CPU 是什么？

CPU（Central Processing Unit，中央处理器）是一个全能型大脑，它的特点是：

核心数量少（一般几核到几十核）

单个核心能力极强（擅长复杂的逻辑运算）

可以把它看成：

一支专家团队：人不多，但每个人都很厉害、也很贵

2. CPU 跑大模型有什么问题？

大模型本质是在做：海量的、重复的、可以同时进行的计算

而 CPU 在这种场景下，会有几个明显短板：

并行能力不足

CPU 核心数量少，面对大模型亿万级的计算任务，超出的任务只能排队等待，任务越多执行越慢。

扩展成本极高

理论上可以使用更多核心的 CPU、同时堆更多 CPU 提升性能，但需要极其多的硬件，成本和功耗将是天文数字，因此实际不可行。

资源利用不匹配

CPU 擅长复杂决策，但大模型主要是简单重复计算，相当于让“专家去搬砖”，没有充分发挥 CPU 的能力，不划算。

数据搬运慢（带宽瓶颈）

大模型参数通常是几 GB～几十 GB 级别。CPU 从内存搬运数据到核心的速度（带宽）有限，导致计算单元经常“等数据”，进一步降低整体效率。

一句话总结

CPU 能跑大模型，但方式是：慢慢算 + 边等边算

二、为什么 GPU 更适合大模型

1. GPU 是什么？

GPU（Graphics Processing Unit，图形处理器）最初用于图形渲染。它的核心特点是：

核心数极多（成千上万个）

单个核心功能较弱（适合简单计算，如加减乘除）

可以把它看成：

一支规模庞大的工人队伍：每个人只做简单工作，但数量巨大、成本更低

2. GPU 为什么跑大模型特别合适

并行计算能力强

大模型计算可以拆成无数小任务，GPU 成千上万的核心可以同时开工，每个核心处理一个任务。就像一块一块地搬砖，执行效率差异巨大：

CPU：几十个人同时搬

GPU：成千上万人同时搬

数据访问速度快

GPU 配套的专用显存（VRAM），可以一次性将数据从内存加载到显存中，计算单元就近访问显存。避免了 CPU 那种频繁通过狭窄通道来回搬运数据的瓶颈。

性价比更高

虽然单块 GPU 看起来比 CPU 贵，但它的核心数量多、并行能力强，单位时间完成的计算更多。 整体计算成本更低

专为这类计算优化

现代 GPU 针对大规模并行计算做了专门优化，在大模型场景下效率远高于 CPU。

一句话总结

GPU 的结构，刚好匹配大模型的计算方式

三、CPU 就没用了吗？

恰恰相反，CPU 依然非常重要。

现实系统里通常是：CPU + GPU 协同工作，它们是不可分割的“黄金搭档”。

分工很明确：

CPU：负责复杂的调度、逻辑、系统控制（“指挥”）

GPU：负责大规模计算（“干活”）

此外，以下场景常常用到 CPU：

轻量化推理： 经过压缩的量化模型，在手机或普通电脑 CPU 上也能流畅运行

本地测试： 开发者在没有高端显卡时，用 CPU 进行功能验证

边缘设备： 如摄像头、传感器等低功耗场景

四、最后总结

大模型不是只能跑在 GPU 上，而是只有 GPU 才让它“可用且高效”。

这就是为什么：几乎所有大模型，最终都会选择 GPU。

CPU 跑大模型：能用，但很慢 GPU 跑大模型：速度正常，体验流畅

发表于: 3天前2026-04-21 23:17:04
原文链接：https://page.om.qq.com/page/OQB2fJhpYKLf0kyis5SeE1Wg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

大模型为什么要跑在 GPU 上

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐