首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >强化学习中的问题:错误、参数调整和训练周期

强化学习中的问题:错误、参数调整和训练周期
EN

Stack Overflow用户
提问于 2016-06-19 18:40:46
回答 1查看 136关注 0票数 0

我目前正在训练一个强化学习智能体,使用100个隐藏元素的简单神经网络来解决2048游戏。我使用的是DQN的强化学习算法(即带有重放记忆的Q学习),但使用的是两层神经网络,而不是深度神经网络。

然而,我让它在我的笔记本电脑上训练了一夜(大约7个小时,玩了大约1000个游戏,> 100000步),分数似乎没有增加。我怀疑我的代码中可能有三个错误来源:错误,参数调优不佳,或者我只是没有等待足够长的时间。

有没有什么方法可以找出代码出了什么问题?提高培训效果的最佳实践是什么?

EN

回答 1

Stack Overflow用户

发布于 2016-07-12 21:09:56

我将讨论你的所有三个假设。

  1. 如果你使用的是像caffe或tensorflow这样的标准DL框架,那么成为bug的可能性很小。
  2. 尝试降低学习率。也许你把它设置得太高了,网络不能收敛。
  3. ,100000步的训练时间并不是那么长。对于一个简单的pong game,您需要训练大约500000个步骤才能获得良好的准确性。所以你可以尝试更长时间的训练。

此外,2048是一个相当复杂的游戏,所以可能你的网络还不够深入,无法学习如何玩它。对于如此复杂的游戏来说,两层并不是很多。尝试增加隐藏层的数量。也许您可以使用here提供的网络

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37906338

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档