我最近一直在研究强化学习。为此,我一直在读萨顿的名著,但有些东西我还没有完全理解。
对于蒙特卡罗学习,我们可以在第一次访问和每次访问之间进行选择,并且可以证明两者都渐近地收敛到正确的解。但我猜两者之间存在差异(我从定义上理解两者之间的差异,但我不明白每种方法的缺点是什么)。在某些情况下,我应该使用第一次访问,有时是最后一次访问吗?
非常感谢,Djaz
发布于 2022-02-08 11:37:46
根据我个人的经验,我注意到第一次访问monte的收敛速度更快,对于控制问题,可以在较少的迭代中获得最优策略。
我不确定是否存在关于两者收敛速度的数学分析,但由于大数定律,它们都会收敛到真正的平均值。
https://stackoverflow.com/questions/52832180
复制相似问题