文章/答案/技术大牛

发布

社区首页 >问答首页 >最优epsilon (ϵ-贪婪)值

问最优epsilon (ϵ-贪婪)值
EN

Stack Overflow用户

提问于 2014-04-02 08:39:59

回答 2查看 22K关注 0票数 20

ϵ-贪婪政策

我知道Q学习算法应该在探索和开发之间寻求平衡。因为我是这个领域的初学者，所以我想实现一个简单的探索/利用行为版本。

最优epsilon值

我的实现使用了贪婪的ϵ策略，但在决定epsilon值时，我感到不知所措。epsilon应该以算法访问给定(状态、操作)对的次数为界，还是应该被执行的迭代次数限制？

我的建议：

每次遇到给定(状态、操作)对时，降低epsilon值。
在完成迭代之后降低epsilon值。
每次遇到状态时，降低epsilon值。

非常感谢！

machine-learning

reinforcement-learning

q-learning

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-04-07 21:05:48

虽然在许多简单的情况下，εk在0和1范围内保持为固定数，但是您应该知道:通常情况下，探索会随着时间的推移而减少，从而使所使用的策略逐渐变得贪婪，从而(作为Qk→Q∗)最优。这可以通过使εk随着k的增长而接近0来实现。例如，形式为-greedy k= 1/k的εε勘探计划以k→∞的形式减少到0，同时仍然满足Q-学习的第二个收敛条件，即允许无限多次访问所有状态-动作对(Singh等人，2000年)。

我通常做的是:在你试用后设置初始alpha = 1/k (考虑初始k=1或2)，当k增加时，alpha会减少。它还保证了收敛性。

票数 25

Stack Overflow用户

发布于 2014-04-02 09:37:01

通常明智的做法是简单地将ε设置为正常量，除非您有充分的理由不这样做。

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/22805872

复制

相似问题

问最优epsilon (ϵ-贪婪)值
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问最优epsilon (ϵ-贪婪)值EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问最优epsilon (ϵ-贪婪)值
EN