很多人一提到大模型,第一反应就是:必须用 GPU。 这句话不完全错,但也不准确。更准确的说法是:
大模型不是只能跑在 GPU 上,而是 GPU 让它“更好用”。
一、为什么不用 CPU 来跑大模型
1. CPU 是什么?
CPU(Central Processing Unit,中央处理器)是一个全能型大脑,它的特点是:
核心数量少(一般几核到几十核)
单个核心能力极强(擅长复杂的逻辑运算)
可以把它看成:
一支专家团队:人不多,但每个人都很厉害、也很贵
2. CPU 跑大模型有什么问题?
大模型本质是在做:海量的、重复的、可以同时进行的计算
而 CPU 在这种场景下,会有几个明显短板:
并行能力不足
CPU 核心数量少,面对大模型亿万级的计算任务,超出的任务只能排队等待,任务越多执行越慢。
扩展成本极高
理论上可以使用更多核心的 CPU、同时堆更多 CPU 提升性能,但需要极其多的硬件,成本和功耗将是天文数字,因此实际不可行。
资源利用不匹配
CPU 擅长复杂决策,但大模型主要是简单重复计算,相当于让“专家去搬砖”,没有充分发挥 CPU 的能力,不划算。
数据搬运慢(带宽瓶颈)
大模型参数通常是几 GB~几十 GB 级别。CPU 从内存搬运数据到核心的速度(带宽)有限,导致计算单元经常“等数据”,进一步降低整体效率。
一句话总结
CPU 能跑大模型,但方式是:慢慢算 + 边等边算
二、为什么 GPU 更适合大模型
1. GPU 是什么?
GPU(Graphics Processing Unit,图形处理器)最初用于图形渲染。它的核心特点是:
核心数极多(成千上万个)
单个核心功能较弱(适合简单计算,如加减乘除)
可以把它看成:
一支规模庞大的工人队伍:每个人只做简单工作,但数量巨大、成本更低
2. GPU 为什么跑大模型特别合适
并行计算能力强
大模型计算可以拆成无数小任务,GPU 成千上万的核心可以同时开工,每个核心处理一个任务。 就像一块一块地搬砖,执行效率差异巨大:
CPU:几十个人同时搬
GPU:成千上万人同时搬
数据访问速度快
GPU 配套的专用显存(VRAM),可以一次性将数据从内存加载到显存中,计算单元就近访问显存。 避免了 CPU 那种频繁通过狭窄通道来回搬运数据的瓶颈。
性价比更高
虽然单块 GPU 看起来比 CPU 贵,但它的核心数量多、并行能力强,单位时间完成的计算更多。 整体计算成本更低
专为这类计算优化
现代 GPU 针对大规模并行计算做了专门优化,在大模型场景下效率远高于 CPU。
一句话总结
GPU 的结构,刚好匹配大模型的计算方式
三、CPU 就没用了吗?
恰恰相反,CPU 依然非常重要。
现实系统里通常是:CPU + GPU 协同工作,它们是不可分割的“黄金搭档”。
分工很明确:
CPU:负责复杂的调度、逻辑、系统控制(“指挥”)
GPU:负责大规模计算(“干活”)
此外,以下场景常常用到 CPU:
轻量化推理: 经过压缩的量化模型,在手机或普通电脑 CPU 上也能流畅运行
本地测试: 开发者在没有高端显卡时,用 CPU 进行功能验证
边缘设备: 如摄像头、传感器等低功耗场景
四、最后总结
大模型不是只能跑在 GPU 上,而是只有 GPU 才让它“可用且高效”。
这就是为什么:几乎所有大模型,最终都会选择 GPU。
CPU 跑大模型:能用,但很慢 GPU 跑大模型:速度正常,体验流畅