首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >最优epsilon (ϵ-贪婪)值

最优epsilon (ϵ-贪婪)值
EN

Stack Overflow用户
提问于 2014-04-02 08:39:59
回答 2查看 22K关注 0票数 20

ϵ-贪婪政策

我知道Q学习算法应该在探索和开发之间寻求平衡。因为我是这个领域的初学者,所以我想实现一个简单的探索/利用行为版本。

最优epsilon值

我的实现使用了贪婪的ϵ策略,但在决定epsilon值时,我感到不知所措。epsilon应该以算法访问给定(状态、操作)对的次数为界,还是应该被执行的迭代次数限制?

我的建议:

  1. 每次遇到给定(状态、操作)对时,降低epsilon值。
  2. 在完成迭代之后降低epsilon值。
  3. 每次遇到状态时,降低epsilon值。

非常感谢!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-04-07 21:05:48

虽然在许多简单的情况下,εk在0和1范围内保持为固定数,但是您应该知道:通常情况下,探索会随着时间的推移而减少,从而使所使用的策略逐渐变得贪婪,从而(作为Qk→Q∗)最优。这可以通过使εk随着k的增长而接近0来实现。例如,形式为-greedy k= 1/k的εε勘探计划以k→∞的形式减少到0,同时仍然满足Q-学习的第二个收敛条件,即允许无限多次访问所有状态-动作对(Singh等人,2000年)。

我通常做的是:在你试用后设置初始alpha = 1/k (考虑初始k=1或2),当k增加时,alpha会减少。它还保证了收敛性。

票数 25
EN

Stack Overflow用户

发布于 2014-04-02 09:37:01

通常明智的做法是简单地将ε设置为正常量,除非您有充分的理由不这样做。

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22805872

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档