我目前正在研究马尔可夫决策过程的动态规划解决方案。我觉得我对VI和PI有很好的把握,PI的动机对我来说是非常清楚的(当我们只需要正确的策略时,收敛到正确的状态实用程序似乎是不必要的工作)。然而,我的实验中没有一个在运行时方面显示PI是有利的。不管状态空间的大小和折扣因素,它似乎总是花费更长的时间。
这可能是由于实现(我正在使用麻布库),或者是我的实验很糟糕。然而,即使是趋势似乎也没有显示出任何好处。应该注意的是,PI的粗粒度实现实际上是“修改策略迭代”,它在每次迭代中运行一个有限的VI变量。我的问题是,你知道有什么情况,理论或实践,在(修正的) PI应该优于VI?
发布于 2014-11-17 05:23:45
结果表明,当折扣因子(γ)很高时,策略迭代,特别是修改的策略迭代,可以优于值迭代。
http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a.pdf
https://stackoverflow.com/questions/26919439
复制相似问题