问Q学习Epsilon -贪婪探索:Epsilon衰变X修复
EN

Stack Overflow用户

提问于 2019-11-09 19:15:27

回答 1查看 908关注 0票数 0

我正在教一个智能体走出迷宫，用Qlearning收集路上的所有苹果。

我读到可以保留一个固定的epsilon，或者选择一个epsilon并随着时间的推移而衰减。

我找不到每种方法的优点或缺点，如果你能帮助我理解我应该使用哪种方法，我很乐意听到更多。

谢谢!

artificial-intelligence

q-learning

epsilon

回答 1

Stack Overflow用户

发布于 2019-11-11 02:58:12

我假设你指的是“epsilon -绿色探索”中的epsilon。此参数的目标是控制您的代理在多大程度上相信其当前策略。对于较大的epsilon值，您的代理将倾向于忽略其策略并选择随机操作。当您的策略相当薄弱时，尤其是在培训开始时，这种探索通常是一个好主意。有时，人们会随着时间的推移而衰败，以反映他们的政策越来越好，他们想要开发而不是探索。

没有正确的方法来选择epsilon，或者它的衰减率，来解决每个问题。最好的方法可能是尝试不同的值。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58778700

复制

相似问题

问Q学习Epsilon -贪婪探索:Epsilon衰变X修复
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Q学习Epsilon -贪婪探索:Epsilon衰变X修复EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Q学习Epsilon -贪婪探索:Epsilon衰变X修复
EN