当使用DQN时,有人告诉我在学习之前最好填满整个回放内存。如果我使用epsilon-greedy策略,我想知道如何退火epsilon。假设重放内存大小为10000,因此代理应该在学习之前运行10000个步骤。我应该在10000步中还是在学习开始之后开始退火epsilon?提前谢谢。
发布于 2018-01-29 16:25:24
在epsilon贪婪策略中逐步减少epsilon参数的目标是从一个更具探索性的策略转移到一个更具剥削性的策略。这一步,只有当智能体学到了一些东西,即当它有一些知识可以利用时,才有意义。
所以,简而言之,你应该在学习开始后开始退火。
https://stackoverflow.com/questions/48495733
复制相似问题