我目前正在训练一个强化学习智能体,使用100个隐藏元素的简单神经网络来解决2048游戏。我使用的是DQN的强化学习算法(即带有重放记忆的Q学习),但使用的是两层神经网络,而不是深度神经网络。
然而,我让它在我的笔记本电脑上训练了一夜(大约7个小时,玩了大约1000个游戏,> 100000步),分数似乎没有增加。我怀疑我的代码中可能有三个错误来源:错误,参数调优不佳,或者我只是没有等待足够长的时间。
有没有什么方法可以找出代码出了什么问题?提高培训效果的最佳实践是什么?
https://stackoverflow.com/questions/37906338
复制相似问题