首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Q学习Epsilon -贪婪探索:Epsilon衰变X修复

Q学习Epsilon -贪婪探索:Epsilon衰变X修复
EN

Stack Overflow用户
提问于 2019-11-09 19:15:27
回答 1查看 908关注 0票数 0

我正在教一个智能体走出迷宫,用Qlearning收集路上的所有苹果。

我读到可以保留一个固定的epsilon,或者选择一个epsilon并随着时间的推移而衰减。

我找不到每种方法的优点或缺点,如果你能帮助我理解我应该使用哪种方法,我很乐意听到更多。

谢谢!

EN

回答 1

Stack Overflow用户

发布于 2019-11-11 02:58:12

我假设你指的是“epsilon -绿色探索”中的epsilon。此参数的目标是控制您的代理在多大程度上相信其当前策略。对于较大的epsilon值,您的代理将倾向于忽略其策略并选择随机操作。当您的策略相当薄弱时,尤其是在培训开始时,这种探索通常是一个好主意。有时,人们会随着时间的推移而衰败,以反映他们的政策越来越好,他们想要开发而不是探索。

没有正确的方法来选择epsilon,或者它的衰减率,来解决每个问题。最好的方法可能是尝试不同的值。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58778700

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档