首页
学习
活动
专区
圈层
工具
发布

大模型为什么要跑在 GPU 上

很多人一提到大模型,第一反应就是:必须用 GPU。 这句话不完全错,但也不准确。更准确的说法是:

大模型不是只能跑在 GPU 上,而是 GPU 让它“更好用”。

一、为什么不用 CPU 来跑大模型

1. CPU 是什么?

CPU(Central Processing Unit,中央处理器)是一个全能型大脑,它的特点是:

核心数量少(一般几核到几十核)

单个核心能力极强(擅长复杂的逻辑运算)

可以把它看成:

一支专家团队:人不多,但每个人都很厉害、也很贵

2. CPU 跑大模型有什么问题?

大模型本质是在做:海量的、重复的、可以同时进行的计算

而 CPU 在这种场景下,会有几个明显短板:

并行能力不足

CPU 核心数量少,面对大模型亿万级的计算任务,超出的任务只能排队等待,任务越多执行越慢。

扩展成本极高

理论上可以使用更多核心的 CPU、同时堆更多 CPU 提升性能,但需要极其多的硬件,成本和功耗将是天文数字,因此实际不可行。

资源利用不匹配

CPU 擅长复杂决策,但大模型主要是简单重复计算,相当于让“专家去搬砖”,没有充分发挥 CPU 的能力,不划算。

数据搬运慢(带宽瓶颈)

大模型参数通常是几 GB~几十 GB 级别。CPU 从内存搬运数据到核心的速度(带宽)有限,导致计算单元经常“等数据”,进一步降低整体效率。

一句话总结

CPU 能跑大模型,但方式是:慢慢算 + 边等边算

二、为什么 GPU 更适合大模型

1. GPU 是什么?

GPU(Graphics Processing Unit,图形处理器)最初用于图形渲染。它的核心特点是:

核心数极多(成千上万个)

单个核心功能较弱(适合简单计算,如加减乘除)

可以把它看成:

一支规模庞大的工人队伍:每个人只做简单工作,但数量巨大、成本更低

2. GPU 为什么跑大模型特别合适

并行计算能力强

大模型计算可以拆成无数小任务,GPU 成千上万的核心可以同时开工,每个核心处理一个任务。 就像一块一块地搬砖,执行效率差异巨大:

CPU:几十个人同时搬

GPU:成千上万人同时搬

数据访问速度快

GPU 配套的专用显存(VRAM),可以一次性将数据从内存加载到显存中,计算单元就近访问显存。 避免了 CPU 那种频繁通过狭窄通道来回搬运数据的瓶颈。

性价比更高

虽然单块 GPU 看起来比 CPU 贵,但它的核心数量多、并行能力强,单位时间完成的计算更多。 整体计算成本更低

专为这类计算优化

现代 GPU 针对大规模并行计算做了专门优化,在大模型场景下效率远高于 CPU。

一句话总结

GPU 的结构,刚好匹配大模型的计算方式

三、CPU 就没用了吗?

恰恰相反,CPU 依然非常重要。

现实系统里通常是:CPU + GPU 协同工作,它们是不可分割的“黄金搭档”。

分工很明确:

CPU:负责复杂的调度、逻辑、系统控制(“指挥”)

GPU:负责大规模计算(“干活”)

此外,以下场景常常用到 CPU:

轻量化推理: 经过压缩的量化模型,在手机或普通电脑 CPU 上也能流畅运行

本地测试: 开发者在没有高端显卡时,用 CPU 进行功能验证

边缘设备: 如摄像头、传感器等低功耗场景

四、最后总结

大模型不是只能跑在 GPU 上,而是只有 GPU 才让它“可用且高效”。

这就是为什么:几乎所有大模型,最终都会选择 GPU。

CPU 跑大模型:能用,但很慢 GPU 跑大模型:速度正常,体验流畅

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OQB2fJhpYKLf0kyis5SeE1Wg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券