问强化学习中的问题:错误、参数调整和训练周期
EN

Stack Overflow用户

提问于 2016-06-19 18:40:46

回答 1查看 136关注 0票数 0

我目前正在训练一个强化学习智能体，使用100个隐藏元素的简单神经网络来解决2048游戏。我使用的是DQN的强化学习算法(即带有重放记忆的Q学习)，但使用的是两层神经网络，而不是深度神经网络。

然而，我让它在我的笔记本电脑上训练了一夜(大约7个小时，玩了大约1000个游戏，> 100000步)，分数似乎没有增加。我怀疑我的代码中可能有三个错误来源:错误，参数调优不佳，或者我只是没有等待足够长的时间。

有没有什么方法可以找出代码出了什么问题？提高培训效果的最佳实践是什么？

发布于 2016-07-12 21:09:56

我将讨论你的所有三个假设。

此外，2048是一个相当复杂的游戏，所以可能你的网络还不够深入，无法学习如何玩它。对于如此复杂的游戏来说，两层并不是很多。尝试增加隐藏层的数量。也许您可以使用here提供的网络

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37906338

复制

相似问题

问强化学习中的问题:错误、参数调整和训练周期EN