我正在训练一个DQN,Q值一直在下降。曲线看起来非常奇怪(见下文)。


每一步都对应于对目标网络的更新。发生这种情况的可能原因是什么?
发布于 2018-06-22 22:19:30
该步骤是否对应于Target Q网络更新?如果是这样,请尝试:
1)降低更新TargetQ网络的频率
2)增加折扣因子(例如,如果您使用的是.5,则为.99 )
3)以(1 - tau)_old + tau_v1的形式对TargetQ网络进行平滑更新
https://stackoverflow.com/questions/47527648
复制相似问题