问使用DQN时epsilon贪婪策略中的退火epsilon
EN

Stack Overflow用户

提问于 2018-01-29 14:44:13

回答 1查看 1.6K关注 0票数 1

当使用DQN时，有人告诉我在学习之前最好填满整个回放内存。如果我使用epsilon-greedy策略，我想知道如何退火epsilon。假设重放内存大小为10000，因此代理应该在学习之前运行10000个步骤。我应该在10000步中还是在学习开始之后开始退火epsilon？提前谢谢。

回答已采纳

发布于 2018-01-29 16:25:24

在epsilon贪婪策略中逐步减少epsilon参数的目标是从一个更具探索性的策略转移到一个更具剥削性的策略。这一步，只有当智能体学到了一些东西，即当它有一些知识可以利用时，才有意义。

所以，简而言之，你应该在学习开始后开始退火。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48495733

复制

相似问题

问使用DQN时epsilon贪婪策略中的退火epsilonEN