首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >何时使用策略迭代而不是值迭代

何时使用策略迭代而不是值迭代
EN

Stack Overflow用户
提问于 2014-11-13 22:12:59
回答 1查看 2.5K关注 0票数 1

我目前正在研究马尔可夫决策过程的动态规划解决方案。我觉得我对VI和PI有很好的把握,PI的动机对我来说是非常清楚的(当我们只需要正确的策略时,收敛到正确的状态实用程序似乎是不必要的工作)。然而,我的实验中没有一个在运行时方面显示PI是有利的。不管状态空间的大小和折扣因素,它似乎总是花费更长的时间。

这可能是由于实现(我正在使用麻布库),或者是我的实验很糟糕。然而,即使是趋势似乎也没有显示出任何好处。应该注意的是,PI的粗粒度实现实际上是“修改策略迭代”,它在每次迭代中运行一个有限的VI变量。我的问题是,你知道有什么情况,理论或实践,在(修正的) PI应该优于VI?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-11-17 05:23:45

结果表明,当折扣因子(γ)很高时,策略迭代,特别是修改的策略迭代,可以优于值迭代。

http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a.pdf

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26919439

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档