有算法来求解有限时间半马尔可夫决策过程吗?
我想找出具有有限作用空间、有限状态空间和最后期限的序贯决策问题的最优策略。关键的是,不同的动作需要不同的时间,对于其中一个动作,这个持续时间是随机的。根据可用的方法,我可以将时间建模为离散的或连续的。
我知道无限视界半MDPs的算法,但我在有限水平半MDPs上找不到任何工作。这类问题以前学过吗?
发布于 2016-05-03 10:42:22
与几乎所有的MDP一样,反向动态规划应该可以工作。您可以在从0到截止日期的小步骤中离散有限范围,然后递归地更新从截止日期开始的值。在状态空间中,您必须跟踪当前操作、用于该操作的总时间以及已经完成的操作。可能的状态数可能相当大。
在动态程序中,您可以利用这样的漏洞:您可以在操作完成时为状态选择值函数。
https://stackoverflow.com/questions/36994129
复制相似问题