由于我是这一领域的一个开端,我对不同的epsilon值将如何影响SARSA和epsilon贪婪算法的行为选择之间的效果有疑问。
据我所知,当epsilon等于0时,总是根据Q导出的策略选择动作,因此,Q学习首先更新Q,然后根据更新Q选择下一个动作,SARSA选择下一个动作和更新Q之后的动作。
当ε等于1时怎么样?ε从0增加到1?
谢谢!
发布于 2015-11-17 04:29:55
ε-贪婪策略选择概率为ε的随机行为或概率为1-ε的最知名行为。在ε=1,它总是会选择随机的动作。这个价值在勘探和开发之间做了权衡:你想利用你所拥有的知识,但你也想寻找更好的选择。
https://stackoverflow.com/questions/33748565
复制相似问题