我在健身房NChain游戏上尝试了DoubleDQN和DQN算法,发现DoubleDQN的性能并不比DQN更稳定或更好。
我将每次操作后训练的批量大小设置为1,我可以知道这是DoubleDQN没有优于DQN的原因吗?
发布于 2019-11-08 00:29:16
看起来你的两个网络都没有学到任何东西,或者环境不会导致Q值乐观。N链的原始结果是3643。A Bayesian Framework for Reinforcement Learning
在atari中,Dobule DQN在大多数游戏中表现优于DQN,但在少数游戏中表现较差。

https://stackoverflow.com/questions/56900349
复制相似问题