首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >最大化策略优化中的状态是否包含历史记录?

最大化策略优化中的状态是否包含历史记录?
EN

Stack Overflow用户
提问于 2017-11-14 13:26:34
回答 1查看 126关注 0票数 1

例如,在时间步骤t中的状态是否实际上是在t和t-1处的状态。

代码语言:javascript
复制
S_t = [s_t, s_t-1]

例如,Proximal策略优化是否已经包含了状态历史,或者它不能隐含在状态中(或者两者都不包含)。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-02-03 08:38:08

你可以把你的观察结果连在一起。这是非常常见的做法,RL。通常在atari域中,最后四个帧被连接成一个单独的观测。这使得代理能够理解环境中的变化。

在默认情况下,基本的PPO算法不会隐式地跟踪状态历史。不过,您可以通过添加一个递归层来实现这一点。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47287033

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档