首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何计算经常性公用事业的最佳政策?

如何计算经常性公用事业的最佳政策?
EN

Stack Overflow用户
提问于 2015-01-10 15:23:39
回答 1查看 62关注 0票数 0

考试解决方案

我正在学习马尔可夫决策过程,对于考试的第6题(见上面所附的链接),我理解在动作后获得相同状态时如何计算效用(问题6的a部分)。

代码语言:javascript
复制
J*(cool) = 4 + 0.9 * J*(cool)

但我不明白如何计算其他状态和行动(问题6的b部分)。我假设方程式是这样的:

在“酷”一词中的动作“快”:

代码语言:javascript
复制
J*(cool) = 10 + 0.9 * (0.25 * J*(cool) + 0.75 * J*(warm))

在“温暖”状态下的行动“缓慢”:

代码语言:javascript
复制
J*(warm) = 4 + 0.9 * (0.5 * J*(cool) + 0.5 * J*(warm))

在“温暖”状态下的“快速”行动:

代码语言:javascript
复制
J*(warm) = 10 + 0.9 * (0.875 * J*(warm) + 0.125 * J*(off))

但是我们在这些方程中没有一个单一的变量,我们没有这些状态的效用?我们如何获得与每个操作相关联的预期实用程序的值?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-01-16 00:31:59

你用这些方程式走在正确的轨道上。您只需要依次考虑这四种可能的策略:(慢,慢),(快,慢),(慢,快),(快,快)。

考虑一下(慢速,快速)

从a)你已经看到J*(酷)= 40。

代码语言:javascript
复制
J*(warm) = 10 + 0.9 * (0.875 * J*(warm) + 0.125 * J*(off))
J*(warm) = 10 + 0.9 * (0.875 * J*(warm) + 0.125 * 0)
J*(warm) = 47.06

用于(慢,慢)

同样,在温暖的状态下,J*(酷)与你的行为无关,所以J*(酷)= 40。

代码语言:javascript
复制
J*(warm) = 4 + 0.9 * (0.5 * J*(cool) + 0.5 * J*(warm))
J*(warm) = 4 + 0.9 * (0.5 * 40 + 0.5 * J*(warm))
J*(warm) = 40

对于(fast,fast)

这一次,处于温暖状态的值与冷动作无关,从上面看是J*(温暖)= 47.06。

代码语言:javascript
复制
J*(cool) = 10 + 0.9 * (0.25 * J*(cool) + 0.75 * J*(warm))
J*(cool) = 10 + 0.9 * (0.25 * J*(cool) + 0.75 * 47.06)
J*(cool) = 53.89

最后,(快,慢)

这是最困难的情况,但我们有两个方程和两个未知数,所以我们可以用联立方程来求解。

代码语言:javascript
复制
J*(cool) = 10 + 0.9 * (0.25 * J*(cool) + 0.75 * J*(warm))
J*(warm) = 4 + 0.9 * (0.5 * J*(cool) + 0.5 * J*(warm))

J*(warm) = (4 + 0.45 * J*(cool))/0.55

J*(cool) = 10 + 0.9 * (0.25 * J*(cool) + 0.75 * (4 + 0.45 * J*(cool))/0.55)
J*(cool) = 66.94
J*(warm) = 62.04

正如我们所看到的,如果我们以温暖的状态开始,我们可以得到的最高值是62.04。从凉爽开始的最高值是66.94。这两种情况都发生在我们的政策是(快的,慢的)(冷的快,暖的慢,因此这是最优的政策)。

事实证明,不可能有最优的策略是从状态A开始,但如果从状态B开始,则不可能是最优的。同样值得注意的是,对于这些类型的无限时间范围的MDP,您可以证明最优策略始终是平稳的,也就是说,如果在时间1中采取缓慢的动作是最优的,那么在任何时候采取缓慢的行动都是最优的。

最后,在实践中,状态和操作的数量要比这个问题大得多,通常需要更高级的技术,例如值迭代、策略迭代或动态规划。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27877782

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档