开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

缩放律：大模型时代的“省钱”指南与避坑艺术

文章来源：企鹅号 - AI可可AI生活

算力昂贵，缩放律（Scaling Laws）的核心意义是在烧掉数百万美元前，算出模型大小 N 和数据量 D 的最优配比。Kaplan 早期认为模型规模更重要，但 Chinchilla 修正了这一偏见：模型和数据应同比例增长。过去很多大模型其实都“练得不够”。

底层逻辑在于，训练损耗遵循幂律分布，在 log-log 图上呈现为直线。这种预测性把模型构建从昂贵的随机猜测变成了严谨的工程问题。

一个不显见但致命的角度是：缩放律的拟合极其脆弱。在小规模实验中，参数统计方式、精度舍入甚至微小的噪声，都会在向大规模外推时产生巨大偏差。这解释了为什么不同实验室的结论常有冲突。外推就像是在显微镜下画长线，起点歪了一毫米，终点就差了几公里。

当优质数据枯竭，重复使用 Token 会带来收益递减，且模型越大对数据重复越敏感。真正的壁垒不再是 Transformer 架构，而是在数据墙面前，如何通过精准的实验设计维持那条预测曲线的有效性。

lilianweng.github.io/posts/2026-06-24-scaling-laws/

#人工智能##AI创造营##大模型##ScalingLaws#

发表于: 1天前2026-06-26 19:06:14
原文链接：https://page.om.qq.com/page/Ozw62aJRlIi3IA12LO-5-gxg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯