文章/答案/技术大牛

发布

社区首页 >问答首页 >不同epsilon值对Q-学习和SARSA的影响

问不同epsilon值对Q-学习和SARSA的影响
EN

Stack Overflow用户

提问于 2015-11-17 03:19:41

回答 1查看 1.7K关注 0票数 2

由于我是这一领域的一个开端，我对不同的epsilon值将如何影响SARSA和epsilon贪婪算法的行为选择之间的效果有疑问。

据我所知，当epsilon等于0时，总是根据Q导出的策略选择动作，因此，Q学习首先更新Q，然后根据更新Q选择下一个动作，SARSA选择下一个动作和更新Q之后的动作。

当ε等于1时怎么样？ε从0增加到1？

谢谢!

sarsa

machine-learning

artificial-intelligence

epsilon

q-learning

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-11-17 04:29:55

ε-贪婪策略选择概率为ε的随机行为或概率为1-ε的最知名行为。在ε=1，它总是会选择随机的动作。这个价值在勘探和开发之间做了权衡:你想利用你所拥有的知识，但你也想寻找更好的选择。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33748565

复制

相似问题

问不同epsilon值对Q-学习和SARSA的影响
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不同epsilon值对Q-学习和SARSA的影响EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不同epsilon值对Q-学习和SARSA的影响
EN