我正在用增强算法训练标题生成的RNN模型。我采用自我批评的策略(见论文图像字幕的自关键序列训练)来减少方差。我用预先训练的RNN模型(即.a)初始化模型。温暖的开始)。这个预先训练的模型(用对数似然目标训练)在我的任务中得到了0.6分.
当我使用adam优化器来训练这个策略梯度目标时,经过几个时期后,我的模型的性能下降到0。然而,如果我切换到梯度优化器,并保持其他一切相同,性能看起来合理,略好于预先培训的模型。你知道这是为什么吗?
我使用tensorflow来实现我的模型。
发布于 2019-04-10 21:20:24
如果没有代码,我们就没有什么可以做的了,但是,我想您需要大大降低学习速度。根据我的经验,与SGD相比,Adam的学习速度要低得多。
https://datascience.stackexchange.com/questions/49078
复制相似问题