首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >理解RLLIB中PPO的张板图

理解RLLIB中PPO的张板图
EN

Stack Overflow用户
提问于 2020-03-13 09:30:49
回答 1查看 1.5K关注 0票数 0

我是深RL的初学者,我想用PPO算法在RLLIB中训练我自己的健身环境。但是,我在查看我的超参数设置是否成功时遇到了一些困难。除了应该上升的明显的episode_reward_mean度量之外,我们还有许多其他的情节。

我特别感兴趣的是熵应该如何在成功的训练中进化。在我的例子中,看起来是这样的:

entropy.jpg

它通常下降到0以下,然后收敛。我明白,熵作为损失函数的一部分,正在加强探索,因此可以加速学习。但为什么会变得消极呢?它不应该总是大于或等于0吗?

成功培训的其他特点是什么(vf_explained_var,vf_loss,kl,.)?

EN

回答 1

Stack Overflow用户

发布于 2020-08-20 23:16:56

如果你的行动空间是连续的,熵可以是负的,因为微分熵可以是负面

理想情况下,您希望熵在训练过程中缓慢而平稳地减少,因为代理会以开发为目的进行探索。

关于vf_*指标,了解它们的含义是很有帮助的。

在策略梯度方法中,通过使用一个值函数--神经网络参数化--来估计未来更远的奖励(请查看PPO纸中的一些数学,在第5页),减少展开估计的方差是有帮助的。

vf_explained_var是通过使用价值函数来解释这些未来奖励的变化。如果可能的话,您希望这个值更高,最高值为1;但是,如果您的环境中存在随机性,则不太可能真正达到1。vf_loss是您的值函数正在发生的错误;理想情况下,这会减少到0,尽管这并不总是可能的(由于随机性)。kl是旧策略和新策略在每一时间步骤中的区别:您希望在训练时平稳地减少这一点以表示收敛。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/60667933

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档