文章/答案/技术大牛

发布

社区首页 >问答首页 >Epsilon贪婪Q学习中的epsilon和学习率衰减

问Epsilon贪婪Q学习中的epsilon和学习率衰减
EN

Stack Overflow用户

提问于 2018-11-08 06:00:43

回答 2查看 20.8K关注 0票数 12

我知道epsilon标志着探索和开发之间的权衡。一开始，你希望epsilon很高，这样你就能大踏步地学到东西。随着你了解未来的奖励，epsilon应该会衰减，这样你就可以利用你发现的更高的Q值。

然而，在随机环境中，我们的学习率是否也会随着时间的推移而下降？所以我看到的帖子只讨论epsilon衰变。

我们如何设置epsilon和alpha，以使值收敛？

machine-learning

reinforcement-learning

q-learning

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-11-08 15:03:16

在开始的时候，你希望epsilon很高，这样你就可以大踏步地学到东西

我想你搞错了epsilon和学习率。这个定义实际上与学习率有关。

学习率衰减

学习率是指你在寻找最优策略方面的飞跃程度。在简单QLearning的术语中，它是您在每一步中更新Q值的量。

较高的alpha意味着您将以较大的步长更新Q值。当智能体正在学习时，你应该衰减它来稳定你的模型输出，最终收敛到一个最优策略。

Epsilon Decay

当我们根据已有的Q值选择特定的操作时，会使用Epsilon。例如，如果我们选择纯贪婪方法( epsilon =0)，那么我们总是在特定状态的所有Q值中选择最高的Q值。这导致了探索中的问题，因为我们很容易陷入局部最优。

因此，我们引入了使用epsilon的随机性。例如，如果epsilon = 0.3，那么我们选择概率为0.3的随机动作，而不考虑实际的Q值。

有关epsilon-greedy策略here的更多详细信息。

总而言之，学习率与你迈出的飞跃有多大有关，而epsilon与你采取行动的随机程度有关。随着学习的进行，两者都应该衰减，以稳定和利用学习到的策略，从而收敛到最优策略。

票数 21

Stack Overflow用户

发布于 2020-07-03 20:05:59

由于Vishma Dias的答案描述了学习率衰减，我想阐述一下问题中隐含提到的用于探索和开发的decayed-epsilon-greedy方法的ε贪婪方法。

在训练RL策略期间，平衡探索和利用的一种方法是使用epsilon-greedy方法。例如,

=0.3意味着对于probability=0.3，输出动作是从动作空间中随机选择的，而对于probability=0.7，输出动作是基于argmax(Q)贪婪地选择的。

一种改进的epsilon-greedy方法称为decayed-epsilon-greedy方法。例如，在这种方法中，我们训练一个总共有N个时期/情节的策略(这取决于问题的具体情况)，算法初始设置

(例如，

=0.6)，然后逐渐减少以结束于

(例如，

=0.1)结束

训练纪元/插曲。具体地说，在初始训练过程中，我们让模型有更多的自由来进行高概率的探索(例如，

=0.6)，然后逐渐减少

在训练时期/剧集上使用以下公式的速率r：

这种更灵活的选择以非常小的勘探概率结束

，之后

训练过程将更多地关注利用(即贪婪)，同时当策略近似收敛时，它仍然可以以非常小的概率进行探索。

您可以在this post中看到decayed epsilon-greedy方法的优势。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53198503

复制

相似问题

问Epsilon贪婪Q学习中的epsilon和学习率衰减
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Epsilon贪婪Q学习中的epsilon和学习率衰减EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Epsilon贪婪Q学习中的epsilon和学习率衰减
EN