我正在教一个智能体走出迷宫,用Qlearning收集路上的所有苹果。
我读到可以保留一个固定的epsilon,或者选择一个epsilon并随着时间的推移而衰减。
我找不到每种方法的优点或缺点,如果你能帮助我理解我应该使用哪种方法,我很乐意听到更多。
谢谢!
发布于 2019-11-11 02:58:12
我假设你指的是“epsilon -绿色探索”中的epsilon。此参数的目标是控制您的代理在多大程度上相信其当前策略。对于较大的epsilon值,您的代理将倾向于忽略其策略并选择随机操作。当您的策略相当薄弱时,尤其是在培训开始时,这种探索通常是一个好主意。有时,人们会随着时间的推移而衰败,以反映他们的政策越来越好,他们想要开发而不是探索。
没有正确的方法来选择epsilon,或者它的衰减率,来解决每个问题。最好的方法可能是尝试不同的值。
https://stackoverflow.com/questions/58778700
复制相似问题