问最大化策略优化中的状态是否包含历史记录？
EN

Stack Overflow用户

提问于 2017-11-14 13:26:34

回答 1查看 126关注 0票数 1

例如，在时间步骤t中的状态是否实际上是在t和t-1处的状态。

S_t = [s_t, s_t-1]

例如，Proximal策略优化是否已经包含了状态历史，或者它不能隐含在状态中(或者两者都不包含)。

回答已采纳

发布于 2018-02-03 08:38:08

你可以把你的观察结果连在一起。这是非常常见的做法，RL。通常在atari域中，最后四个帧被连接成一个单独的观测。这使得代理能够理解环境中的变化。

在默认情况下，基本的PPO算法不会隐式地跟踪状态历史。不过，您可以通过添加一个递归层来实现这一点。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47287033

复制

相似问题

问最大化策略优化中的状态是否包含历史记录？EN