文章/答案/技术大牛

发布

社区首页 >问答首页 >第一次访问与每次访问蒙特卡罗

问第一次访问与每次访问蒙特卡罗
EN

Stack Overflow用户

提问于 2018-10-16 09:25:52

回答 1查看 875关注 0票数 3

我最近一直在研究强化学习。为此，我一直在读萨顿的名著，但有些东西我还没有完全理解。

对于蒙特卡罗学习，我们可以在第一次访问和每次访问之间进行选择，并且可以证明两者都渐近地收敛到正确的解。但我猜两者之间存在差异(我从定义上理解两者之间的差异，但我不明白每种方法的缺点是什么)。在某些情况下，我应该使用第一次访问，有时是最后一次访问吗？

非常感谢，Djaz

发布于 2022-02-08 11:37:46

根据我个人的经验，我注意到第一次访问monte的收敛速度更快，对于控制问题，可以在较少的迭代中获得最优策略。

我不确定是否存在关于两者收敛速度的数学分析，但由于大数定律，它们都会收敛到真正的平均值。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52832180

复制

相似问题

问第一次访问与每次访问蒙特卡罗EN