问何时使用策略迭代而不是值迭代
EN

Stack Overflow用户

提问于 2014-11-13 22:12:59

回答 1查看 2.5K关注 0票数 1

我目前正在研究马尔可夫决策过程的动态规划解决方案。我觉得我对VI和PI有很好的把握，PI的动机对我来说是非常清楚的(当我们只需要正确的策略时，收敛到正确的状态实用程序似乎是不必要的工作)。然而，我的实验中没有一个在运行时方面显示PI是有利的。不管状态空间的大小和折扣因素，它似乎总是花费更长的时间。

这可能是由于实现(我正在使用麻布库)，或者是我的实验很糟糕。然而，即使是趋势似乎也没有显示出任何好处。应该注意的是，PI的粗粒度实现实际上是“修改策略迭代”，它在每次迭代中运行一个有限的VI变量。我的问题是，你知道有什么情况，理论或实践，在(修正的) PI应该优于VI？

回答已采纳

发布于 2014-11-17 05:23:45

结果表明，当折扣因子(γ)很高时，策略迭代，特别是修改的策略迭代，可以优于值迭代。

http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a.pdf

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/26919439

复制

相似问题

问何时使用策略迭代而不是值迭代EN