首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >不同epsilon值对Q-学习和SARSA的影响

不同epsilon值对Q-学习和SARSA的影响
EN

Stack Overflow用户
提问于 2015-11-17 03:19:41
回答 1查看 1.7K关注 0票数 2

由于我是这一领域的一个开端,我对不同的epsilon值将如何影响SARSA和epsilon贪婪算法的行为选择之间的效果有疑问。

据我所知,当epsilon等于0时,总是根据Q导出的策略选择动作,因此,Q学习首先更新Q,然后根据更新Q选择下一个动作,SARSA选择下一个动作和更新Q之后的动作。

当ε等于1时怎么样?ε从0增加到1?

谢谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-11-17 04:29:55

ε-贪婪策略选择概率为ε的随机行为或概率为1-ε的最知名行为。在ε=1,它总是会选择随机的动作。这个价值在勘探和开发之间做了权衡:你想利用你所拥有的知识,但你也想寻找更好的选择。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33748565

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档