ϵ-贪婪政策
我知道Q学习算法应该在探索和开发之间寻求平衡。因为我是这个领域的初学者,所以我想实现一个简单的探索/利用行为版本。
最优epsilon值
我的实现使用了贪婪的ϵ策略,但在决定epsilon值时,我感到不知所措。epsilon应该以算法访问给定(状态、操作)对的次数为界,还是应该被执行的迭代次数限制?
我的建议:
非常感谢!
发布于 2014-04-07 21:05:48
虽然在许多简单的情况下,εk在0和1范围内保持为固定数,但是您应该知道:通常情况下,探索会随着时间的推移而减少,从而使所使用的策略逐渐变得贪婪,从而(作为Qk→Q∗)最优。这可以通过使εk随着k的增长而接近0来实现。例如,形式为-greedy k= 1/k的εε勘探计划以k→∞的形式减少到0,同时仍然满足Q-学习的第二个收敛条件,即允许无限多次访问所有状态-动作对(Singh等人,2000年)。
我通常做的是:在你试用后设置初始alpha = 1/k (考虑初始k=1或2),当k增加时,alpha会减少。它还保证了收敛性。
发布于 2014-04-02 09:37:01
通常明智的做法是简单地将ε设置为正常量,除非您有充分的理由不这样做。
https://stackoverflow.com/questions/22805872
复制相似问题