问即使在每一集中，当epsilon发生变化时，Sarsa仍然收敛吗？
EN

Stack Overflow用户

提问于 2018-04-07 16:17:24

回答 1查看 912关注 0票数 2

我使用n步Sarsa/有时Sarsa(lambda)

在对不同的epsilon时间表进行了一些实验之后，我发现当我在一集中改变epsilon时，根据已经采取的步骤的数量和最后10集的平均长度，代理学得更快。

低步数/第一集=>低感受器

高步数/集末=>高感受器

这比从一集到另一集随着时间的推移，只是一个epsilon衰变要好得多。

理论允许这样做吗？

我认为是的，因为所有的州仍然定期访问。

回答已采纳

发布于 2018-04-07 19:35:29

是的，SARSA算法甚至在每集中更新epsilon参数的情况下也会收敛。其要求是epsilon最终应趋向于零或一个小值。

在您的例子中，如果您从每集中的一个小epsilon值开始，并且随着步骤的增加而增加它，我不太清楚您的算法是否会收敛到一个最优策略。我的意思是，在某种程度上，epsilon应该会减少。

“最好的”epsilon计划是高度依赖于问题的，并且没有一个在所有问题中都能正常工作的计划。因此，在问题的最后，它需要一些经验，可能需要一些尝试和错误调整。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49709397

复制

相似问题

问即使在每一集中，当epsilon发生变化时，Sarsa仍然收敛吗？EN