首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用DQN时epsilon贪婪策略中的退火epsilon

使用DQN时epsilon贪婪策略中的退火epsilon
EN

Stack Overflow用户
提问于 2018-01-29 14:44:13
回答 1查看 1.6K关注 0票数 1

当使用DQN时,有人告诉我在学习之前最好填满整个回放内存。如果我使用epsilon-greedy策略,我想知道如何退火epsilon。假设重放内存大小为10000,因此代理应该在学习之前运行10000个步骤。我应该在10000步中还是在学习开始之后开始退火epsilon?提前谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-29 16:25:24

在epsilon贪婪策略中逐步减少epsilon参数的目标是从一个更具探索性的策略转移到一个更具剥削性的策略。这一步,只有当智能体学到了一些东西,即当它有一些知识可以利用时,才有意义。

所以,简而言之,你应该在学习开始后开始退火。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48495733

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档