我遇到的问题是,来自常规批处理(例如,32,64)的数据不适合我的GPU。在其他解决方案中,我正在考虑减少批处理大小,就像通常建议的那样。当然,这会使神经网络更加不稳定,因此需要考虑其他事情。
例如,我正在考虑降低学习速度,以抵消小批处理带来的不稳定性。会不会用较小的学习率完全消除较高的不稳定性?或者,这是否带来了其他的问题,并没有完全解决问题?
发布于 2020-01-16 21:01:10
你知道这篇文章/教程吗?
我没有研究这个答案,但我想,当你保证这些批次是随机的,一个更小的学习就会得到同样的结果。
我猜你的学习率除以批次大小缩减因子的平方根。
https://datascience.stackexchange.com/questions/66591
复制相似问题