还有多个梯度下降算法。你在这里描述的是所谓的学术梯度下降。SGD每次接收一个标签，并根据一个标签近似于整个训练集的梯度。现在这个近似是一个相当弱的近似，因为它是你训练的一个很小的百分比，所以在每一个时代都会有很大的噪音和成本波动。所谓的小批处理梯度下降是更常用的，并采取n个标签的数量，以近似梯度和预制件更新。这需要更长的时间来收敛，因为你采用N个随机标签，而不是1预先形成一个更新，这需要更多的计算时间。由于速度慢的权衡，它更准确，也是为什么调整权重的方式，使所有培训成本功能的成本最小化。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/71480

复制

相似问题

问在CNN中，如何为特定类的过滤器保留权重。
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在CNN中，如何为特定类的过滤器保留权重。EN