例如,在时间步骤t中的状态是否实际上是在t和t-1处的状态。
S_t = [s_t, s_t-1]例如,Proximal策略优化是否已经包含了状态历史,或者它不能隐含在状态中(或者两者都不包含)。
发布于 2018-02-03 08:38:08
你可以把你的观察结果连在一起。这是非常常见的做法,RL。通常在atari域中,最后四个帧被连接成一个单独的观测。这使得代理能够理解环境中的变化。
在默认情况下,基本的PPO算法不会隐式地跟踪状态历史。不过,您可以通过添加一个递归层来实现这一点。
https://stackoverflow.com/questions/47287033
复制相似问题