我知道epsilon标志着探索和开发之间的权衡。一开始,你希望epsilon很高,这样你就能大踏步地学到东西。随着你了解未来的奖励,epsilon应该会衰减,这样你就可以利用你发现的更高的Q值。
然而,在随机环境中,我们的学习率是否也会随着时间的推移而下降?所以我看到的帖子只讨论epsilon衰变。
我们如何设置epsilon和alpha,以使值收敛?
发布于 2018-11-08 15:03:16
在开始的时候,你希望epsilon很高,这样你就可以大踏步地学到东西
我想你搞错了epsilon和学习率。这个定义实际上与学习率有关。
学习率衰减
学习率是指你在寻找最优策略方面的飞跃程度。在简单QLearning的术语中,它是您在每一步中更新Q值的量。

较高的alpha意味着您将以较大的步长更新Q值。当智能体正在学习时,你应该衰减它来稳定你的模型输出,最终收敛到一个最优策略。
Epsilon Decay
当我们根据已有的Q值选择特定的操作时,会使用Epsilon。例如,如果我们选择纯贪婪方法( epsilon =0),那么我们总是在特定状态的所有Q值中选择最高的Q值。这导致了探索中的问题,因为我们很容易陷入局部最优。
因此,我们引入了使用epsilon的随机性。例如,如果epsilon = 0.3,那么我们选择概率为0.3的随机动作,而不考虑实际的Q值。
有关epsilon-greedy策略here的更多详细信息。
总而言之,学习率与你迈出的飞跃有多大有关,而epsilon与你采取行动的随机程度有关。随着学习的进行,两者都应该衰减,以稳定和利用学习到的策略,从而收敛到最优策略。
发布于 2020-07-03 20:05:59
由于Vishma Dias的答案描述了学习率衰减,我想阐述一下问题中隐含提到的用于探索和开发的decayed-epsilon-greedy方法的ε贪婪方法。
在训练RL策略期间,平衡探索和利用的一种方法是使用epsilon-greedy方法。例如,

=0.3意味着对于probability=0.3,输出动作是从动作空间中随机选择的,而对于probability=0.7,输出动作是基于argmax(Q)贪婪地选择的。
一种改进的epsilon-greedy方法称为decayed-epsilon-greedy方法。例如,在这种方法中,我们训练一个总共有N个时期/情节的策略(这取决于问题的具体情况),算法初始设置

=

(例如,

=0.6),然后逐渐减少以结束于

=

(例如,

=0.1)结束

训练纪元/插曲。具体地说,在初始训练过程中,我们让模型有更多的自由来进行高概率的探索(例如,

=0.6),然后逐渐减少

在训练时期/剧集上使用以下公式的速率r:


这种更灵活的选择以非常小的勘探概率结束

,之后

训练过程将更多地关注利用(即贪婪),同时当策略近似收敛时,它仍然可以以非常小的概率进行探索。
您可以在this post中看到decayed epsilon-greedy方法的优势。
https://stackoverflow.com/questions/53198503
复制相似问题