快速阅读:长期以来,神经网络被认为必须依靠规模取胜。但随着硬件底层支持结构化稀疏(Structured Sparsity),我们正从“暴力堆叠参数”转向“精准提取核心”,这不仅是算法的胜利,更是计算效率的一次飞跃。
神经网络里其实藏着一张“中奖彩票”。
MIT 的研究早就在几年前证明过:在大规模模型内部,存在一个极小的子网络,它承载了几乎所有的核心逻辑。如果能找到这个“中奖票”,哪怕把其他 90% 的权重都删掉,模型的准确率也几乎不动。
可惜,在很长一段时间里,这只是个昂贵的学术实验。因为要找到这张票,你得先完整地训练一遍那个庞然大物。谁也不想为了部署一个模型,先白白烧掉两倍的算力去寻找所谓的“中奖位”。这种做法在生产环境下根本跑不通。
但现在,底层架构变了。
现在的 GPU(比如 NVIDIA Ampere 架构之后)不再只是模拟剪枝,它们在硅片层面直接支持块稀疏模式。这不再是数学上的幻觉,而是实实在在的硬件加速。当网络变得稀疏,内存带宽占用减少一半,计算吞吐量翻倍。
这种转变有几个支撑点:训练阶段就开始感知剪枝、PyTorch 2.0 的原生支持,以及一个残酷的事实——AI 模型的设计本身就是过度参数化的。进化过程总是倾向于冗余,而我们现在终于学会了修剪。
当然,争议也随之而来。有网友提到,这种硬件加速目前主要针对的是特定比例的稀疏(如 2:4 模式),并非无限制地砍掉 90%。也有观点认为,这种“发现”其实并不新鲜,早在设计阶段通过特定的损失函数或正则化手段,就能在训练时就强制模型保持精简。
更有意思的想法是,如果把这个逻辑推向极端:不断生成、剪枝、再蒸馏,是否能用极小的参数量构建出千亿级别的智能?
这种效率的提升,可能会彻底改写“算力和电力将成为瓶颈”的论调。未来的模型不必臃肿,它们可以更小、更快、更聪明。
我们正在进入一个不再为无用权重付费的时代。
剩下的问题是:当模型越来越精简,我们是在逼近智能的本质,还是在不断压缩理解世界的边界?
x.com/HowToAI_/status/2042207410484654247