从Tensorflow (翻译,ptb)的各种例子来看,在使用GradientDescentOptimizer时,您似乎需要显式地改变学习速度。但是,当我们继续从保存的实例中训练模型时,是否使用了一些更“复杂”的技术,如Adagrad、Adadelta等等,这些优化器使用的过去值是否保存在模型文件中?
发布于 2016-05-25 09:05:18
这取决于您正在使用的优化器。香草SGD需要(接受)个人适应的学习率。有些人有。例如,阿德罗塔就没有。(https://arxiv.org/abs/1212.5701)
因此,这在很大程度上不依赖于Tensorflow,而是取决于您正在使用的优化器的数学背景。
此外:是的,保存和重新开始培训并不会重置学习率,而是在保存的时刻持续进行。
https://stackoverflow.com/questions/37431725
复制相似问题