首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >RL算法成功播放openai健身房CartPole-v1,但在atari Boxing-ram-v0上失败

RL算法成功播放openai健身房CartPole-v1,但在atari Boxing-ram-v0上失败
EN

Stack Overflow用户
提问于 2020-05-13 09:20:20
回答 1查看 196关注 0票数 0

我最近实现了ppo算法,他在CartPole-v1上工作得很好,但它在Boxing-ram-v0上不起作用,有人能解释一下吗?

this is my repo

this is the train score history in CartPole-v1

and behavior in Boxing-ram-v0

有人能解释一下吗?

EN

回答 1

Stack Overflow用户

发布于 2020-05-13 18:29:08

我认为您的模型的问题在于,所有时间步骤的代理操作几乎都是相同的。这可能是因为神经网络变得饱和。在CartPole环境中,所有维度的状态都在-,1,1范围内,但在Boxing-ram-v0环境中不在范围内。因此,在将状态存储到缓冲区之前,您可能应该将状态归一化到-1,1的范围。

希望这能有所帮助!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61764772

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档