问基于神经网络的Sarsa算法解决山地车任务
EN

Stack Overflow用户

提问于 2017-07-29 23:24:27

回答 1查看 737关注 0票数 2

我正在尝试实现情景半梯度Sarsa来估计Q，在Sutton的书中描述了to solve the Mountain Car Task。为了近似计算q，我想使用一个neural network。因此，我想出了this代码。但遗憾的是，我的代理并没有真正学会如何解决这个问题。在某些情况下，解决方案的找到速度非常快(100-200步)，但有时代理需要超过30k步。我想，我在我的实现中犯了一些基本的错误，但我自己找不到。有人能帮我指出我的实现中的错误/错误吗？

reinforcement-learning

sarsa

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-09-18 04:48:52

我通过改变网络结构解决了这个问题:我没有使用(state, action)对来预测它的Q-value，而是以DQN的方式进行了更改:我预测给定状态下所有三个可能操作的value，然后根据这个预测选择操作。我之前的方法找不到问题所在，但至少现在这个方法起作用了。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45390903

复制

相似问题

问基于神经网络的Sarsa算法解决山地车任务
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于神经网络的Sarsa算法解决山地车任务EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于神经网络的Sarsa算法解决山地车任务
EN