首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >连续时间有限视界MDP

连续时间有限视界MDP
EN

Stack Overflow用户
提问于 2016-05-03 01:23:25
回答 1查看 280关注 0票数 0

有算法来求解有限时间半马尔可夫决策过程吗?

我想找出具有有限作用空间、有限状态空间和最后期限的序贯决策问题的最优策略。关键的是,不同的动作需要不同的时间,对于其中一个动作,这个持续时间是随机的。根据可用的方法,我可以将时间建模为离散的或连续的。

我知道无限视界半MDPs的算法,但我在有限水平半MDPs上找不到任何工作。这类问题以前学过吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-05-03 10:42:22

与几乎所有的MDP一样,反向动态规划应该可以工作。您可以在从0到截止日期的小步骤中离散有限范围,然后递归地更新从截止日期开始的值。在状态空间中,您必须跟踪当前操作、用于该操作的总时间以及已经完成的操作。可能的状态数可能相当大。

在动态程序中,您可以利用这样的漏洞:您可以在操作完成时为状态选择值函数。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/36994129

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档