我使用n步Sarsa/有时Sarsa(lambda)
在对不同的epsilon时间表进行了一些实验之后,我发现当我在一集中改变epsilon时,根据已经采取的步骤的数量和最后10集的平均长度,代理学得更快。
低步数/第一集=>低感受器
高步数/集末=>高感受器
这比从一集到另一集随着时间的推移,只是一个epsilon衰变要好得多。
理论允许这样做吗?
我认为是的,因为所有的州仍然定期访问。
发布于 2018-04-07 19:35:29
是的,SARSA算法甚至在每集中更新epsilon参数的情况下也会收敛。其要求是epsilon最终应趋向于零或一个小值。
在您的例子中,如果您从每集中的一个小epsilon值开始,并且随着步骤的增加而增加它,我不太清楚您的算法是否会收敛到一个最优策略。我的意思是,在某种程度上,epsilon应该会减少。
“最好的”epsilon计划是高度依赖于问题的,并且没有一个在所有问题中都能正常工作的计划。因此,在问题的最后,它需要一些经验,可能需要一些尝试和错误调整。
https://stackoverflow.com/questions/49709397
复制相似问题