文章/答案/技术大牛

发布

社区首页 >问答首页 >连续时间有限视界MDP

问连续时间有限视界MDP
EN

Stack Overflow用户

提问于 2016-05-03 01:23:25

回答 1查看 280关注 0票数 0

有算法来求解有限时间半马尔可夫决策过程吗？

我想找出具有有限作用空间、有限状态空间和最后期限的序贯决策问题的最优策略。关键的是，不同的动作需要不同的时间，对于其中一个动作，这个持续时间是随机的。根据可用的方法，我可以将时间建模为离散的或连续的。

我知道无限视界半MDPs的算法，但我在有限水平半MDPs上找不到任何工作。这类问题以前学过吗？

reinforcement-learning

markov-models

control-theory

dynamic-programming

markov-chains

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-05-03 10:42:22

与几乎所有的MDP一样，反向动态规划应该可以工作。您可以在从0到截止日期的小步骤中离散有限范围，然后递归地更新从截止日期开始的值。在状态空间中，您必须跟踪当前操作、用于该操作的总时间以及已经完成的操作。可能的状态数可能相当大。

在动态程序中，您可以利用这样的漏洞:您可以在操作完成时为状态选择值函数。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/36994129

复制

相似问题

问连续时间有限视界MDP
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问连续时间有限视界MDPEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问连续时间有限视界MDP
EN