文章/答案/技术大牛

发布

社区首页 >问答首页 >理解RLLIB中PPO的张板图

问理解RLLIB中PPO的张板图
EN

Stack Overflow用户

提问于 2020-03-13 09:30:49

回答 1查看 1.5K关注 0票数 0

我是深RL的初学者，我想用PPO算法在RLLIB中训练我自己的健身环境。但是，我在查看我的超参数设置是否成功时遇到了一些困难。除了应该上升的明显的episode_reward_mean度量之外，我们还有许多其他的情节。

我特别感兴趣的是熵应该如何在成功的训练中进化。在我的例子中，看起来是这样的：

entropy.jpg

它通常下降到0以下，然后收敛。我明白，熵作为损失函数的一部分，正在加强探索，因此可以加速学习。但为什么会变得消极呢？它不应该总是大于或等于0吗？

成功培训的其他特点是什么(vf_explained_var，vf_loss，kl，.)？

tensorflow

reinforcement-learning

rllib

回答 1

Stack Overflow用户

发布于 2020-08-20 23:16:56

如果你的行动空间是连续的，熵可以是负的，因为微分熵可以是负面。

理想情况下，您希望熵在训练过程中缓慢而平稳地减少，因为代理会以开发为目的进行探索。

关于vf_*指标，了解它们的含义是很有帮助的。

在策略梯度方法中，通过使用一个值函数--神经网络参数化--来估计未来更远的奖励(请查看PPO纸中的一些数学，在第5页)，减少展开估计的方差是有帮助的。

vf_explained_var是通过使用价值函数来解释这些未来奖励的变化。如果可能的话，您希望这个值更高，最高值为1；但是，如果您的环境中存在随机性，则不太可能真正达到1。vf_loss是您的值函数正在发生的错误；理想情况下，这会减少到0，尽管这并不总是可能的(由于随机性)。kl是旧策略和新策略在每一时间步骤中的区别:您希望在训练时平稳地减少这一点以表示收敛。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60667933

复制

相似问题

问理解RLLIB中PPO的张板图
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问理解RLLIB中PPO的张板图EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问理解RLLIB中PPO的张板图
EN