超大型智算中心（AIDC）的应用场景及关键技术

霞姐聊IT

发布于 2025-05-30 08:11:12

1.9K0

超大型智算中心是拥有几千上万张、甚至十万张加速卡，总算力可达几百PFLOPS~EFLOPS级别的智算中心。

中国已有多个由超大型智算中心，比如：

²上海商汤临港人工智能计算中心可提供14 EFLOPS算力，加上其它全国各地可统一调度数据节点，共有5.4万GPU、可提供20 EFLOPS算力。

²中国移动智算中心（呼和浩特）部署约2万张AI加速卡，可提供6.7EFLOPS 算力。

²中国电信智算中心（南京）已建成算力规模2EFlops，2025年底算力规模可达5EFlops

²中国联通长三角（芜湖）智算中心总规划算力为3EFLOPS算力。

²首个国产万卡集群：科大讯飞智算平台“飞星一号”，以及正在打造的“飞星二号”

以A100 GPU卡为例，一张卡卖10万人民币，1万张卡就需要10亿人民币。再算上机房建设费用，网络、安全等硬件设施投入，每天的电力消耗、运维等人力成本等更是一笔极大的投资。

那么为什么需要这么大规模的智算中心呢？这主要是因为AIGC（生成式AI）产业的驱动（我觉得政府的牵引的动力也在于看到了AIGC对经济竞争力提升的重要性）。

2024年，AIGC已经走进营销、金融、医疗、制造等多个领域，产生了和大众息息相关的技术产品，比如数字人、智能汽车等，并且应用场景和商业机会还在增加。

AIGC是建立在大模型的基础之上的，而大模型是建立在算力等基础设施的基础之上的。

根据OpenAI在2020年提出的Scaling Law（规模法则），随着训练数据、模型大小和算力的增加，大语言模型的性能会有所提升。

因此，如果想得到性能好、质量高的模型，那么需要大量的算力投入。

尽管近年DeepSeek的出现提供了降低了AI训练成本的算法层思路，但是业界认为Scaling Law并未失效，而是从单一的暴力堆算力模式转变成为“算力-算法-场景”协同进化的模式。

这也是为什么国内国外科技巨头、运营商都在建超大型智算中心的动力所在。

超大型智算中心平时都在做什么呢？超大型的智算中心的主要用户是大型互联网、运营商、大模型公司，主要业务分成两类：1.基础大模型的预训练2. 面向海量消费者用户（ToC）的推理。

为了承载这两类业务，超大型的智算中心需要做到3点，达成极致算效和极致能效的效果：

1.提高算力集群的有效算力，提升基础模型预训练效率，缩短训练时间。

2.关注ToC推理的Latency时延、Accuracy准确率、Concurrency吞吐并发能力、Effciency算力使用效率。

3.高效率、高密度、高弹性、高可靠的能源基础设施。

评价一个超大型智算中心也正是围绕算效和能效这两个角度来评估的：

训练算效	算力规模(PFLOPS)	基于FP16计算
算力利用率(%)	MFU：Model FLOPS Utilization模型的实际利用算力/集群理论能力
故障恢复时间(min)	训练任务由故障状态转为工作状态时的修复时间
MTBF(天)	平均故障间隔
推理算效	TTFT（ms或s）	Time To First Token (TTFT): 首 Token 延迟，即从输入到输出第一个 token 的延迟。
	TBT（ms或s）	生成连续输出Token之间的平均时间间隔
	精度(%)	正确回答的比例
	吞吐(Tokens/s)	单位时间内能够处理的请求数量或者能够生成的结果数量
能效	PUE	DC的总电量÷IT设备用电量