首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >第一次访问与每次访问蒙特卡罗

第一次访问与每次访问蒙特卡罗
EN

Stack Overflow用户
提问于 2018-10-16 09:25:52
回答 1查看 875关注 0票数 3

我最近一直在研究强化学习。为此,我一直在读萨顿的名著,但有些东西我还没有完全理解。

对于蒙特卡罗学习,我们可以在第一次访问和每次访问之间进行选择,并且可以证明两者都渐近地收敛到正确的解。但我猜两者之间存在差异(我从定义上理解两者之间的差异,但我不明白每种方法的缺点是什么)。在某些情况下,我应该使用第一次访问,有时是最后一次访问吗?

非常感谢,Djaz

EN

回答 1

Stack Overflow用户

发布于 2022-02-08 11:37:46

根据我个人的经验,我注意到第一次访问monte的收敛速度更快,对于控制问题,可以在较少的迭代中获得最优策略。

我不确定是否存在关于两者收敛速度的数学分析,但由于大数定律,它们都会收敛到真正的平均值。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52832180

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档