算力昂贵,缩放律(Scaling Laws)的核心意义是在烧掉数百万美元前,算出模型大小 N 和数据量 D 的最优配比。Kaplan 早期认为模型规模更重要,但 Chinchilla 修正了这一偏见:模型和数据应同比例增长。过去很多大模型其实都“练得不够”。
底层逻辑在于,训练损耗遵循幂律分布,在 log-log 图上呈现为直线。这种预测性把模型构建从昂贵的随机猜测变成了严谨的工程问题。
一个不显见但致命的角度是:缩放律的拟合极其脆弱。在小规模实验中,参数统计方式、精度舍入甚至微小的噪声,都会在向大规模外推时产生巨大偏差。这解释了为什么不同实验室的结论常有冲突。外推就像是在显微镜下画长线,起点歪了一毫米,终点就差了几公里。
当优质数据枯竭,重复使用 Token 会带来收益递减,且模型越大对数据重复越敏感。真正的壁垒不再是 Transformer 架构,而是在数据墙面前,如何通过精准的实验设计维持那条预测曲线的有效性。
lilianweng.github.io/posts/2026-06-24-scaling-laws/
#人工智能##AI创造营##大模型##ScalingLaws#