当我阅读和复习吴家富深造课程的第二节课时,我偶然发现一句话:
随着一个良好的小批大小,它通常优于梯度下降或随机梯度下降(特别是当训练集是大的)。
但这怎么可能?小批处理梯度下降真的能给我们一组更好的权重和偏差,即使它没有根据整个数据集更新它们吗?我只能认为,这可能不是过分适合,这样,它可以提供更好的结果。
发布于 2020-07-30 07:48:59
首先,SGD提供了频繁的更新,这有助于提高模型的性能,但是它会导致噪声的结果,而且频繁更新对于大型数据集来说计算成本很高。
批处理梯度具有较小的更新频率,其结果是稳定的误差梯度,但由于它存储了整个训练数据,学习过程缓慢(当数据较大时)。
小批处理梯度下降在随机梯度下降的鲁棒性和批处理梯度下降的效率之间寻求一种平衡。
迷你批处理GD允许在内存中没有所有的培训数据,并且可以以分布式方式执行。
要获得更多信息,您可以查看伊恩古德费罗的深度学习书的第8章。
https://datascience.stackexchange.com/questions/78513
复制相似问题