考试解决方案
我正在学习马尔可夫决策过程,对于考试的第6题(见上面所附的链接),我理解在动作后获得相同状态时如何计算效用(问题6的a部分)。
J*(cool) = 4 + 0.9 * J*(cool)但我不明白如何计算其他状态和行动(问题6的b部分)。我假设方程式是这样的:
在“酷”一词中的动作“快”:
J*(cool) = 10 + 0.9 * (0.25 * J*(cool) + 0.75 * J*(warm))在“温暖”状态下的行动“缓慢”:
J*(warm) = 4 + 0.9 * (0.5 * J*(cool) + 0.5 * J*(warm))在“温暖”状态下的“快速”行动:
J*(warm) = 10 + 0.9 * (0.875 * J*(warm) + 0.125 * J*(off))但是我们在这些方程中没有一个单一的变量,我们没有这些状态的效用?我们如何获得与每个操作相关联的预期实用程序的值?
发布于 2015-01-16 00:31:59
你用这些方程式走在正确的轨道上。您只需要依次考虑这四种可能的策略:(慢,慢),(快,慢),(慢,快),(快,快)。
考虑一下(慢速,快速)
从a)你已经看到J*(酷)= 40。
J*(warm) = 10 + 0.9 * (0.875 * J*(warm) + 0.125 * J*(off))
J*(warm) = 10 + 0.9 * (0.875 * J*(warm) + 0.125 * 0)
J*(warm) = 47.06用于(慢,慢)
同样,在温暖的状态下,J*(酷)与你的行为无关,所以J*(酷)= 40。
J*(warm) = 4 + 0.9 * (0.5 * J*(cool) + 0.5 * J*(warm))
J*(warm) = 4 + 0.9 * (0.5 * 40 + 0.5 * J*(warm))
J*(warm) = 40对于(fast,fast)
这一次,处于温暖状态的值与冷动作无关,从上面看是J*(温暖)= 47.06。
J*(cool) = 10 + 0.9 * (0.25 * J*(cool) + 0.75 * J*(warm))
J*(cool) = 10 + 0.9 * (0.25 * J*(cool) + 0.75 * 47.06)
J*(cool) = 53.89最后,(快,慢)
这是最困难的情况,但我们有两个方程和两个未知数,所以我们可以用联立方程来求解。
J*(cool) = 10 + 0.9 * (0.25 * J*(cool) + 0.75 * J*(warm))
J*(warm) = 4 + 0.9 * (0.5 * J*(cool) + 0.5 * J*(warm))
J*(warm) = (4 + 0.45 * J*(cool))/0.55
J*(cool) = 10 + 0.9 * (0.25 * J*(cool) + 0.75 * (4 + 0.45 * J*(cool))/0.55)
J*(cool) = 66.94
J*(warm) = 62.04正如我们所看到的,如果我们以温暖的状态开始,我们可以得到的最高值是62.04。从凉爽开始的最高值是66.94。这两种情况都发生在我们的政策是(快的,慢的)(冷的快,暖的慢,因此这是最优的政策)。
事实证明,不可能有最优的策略是从状态A开始,但如果从状态B开始,则不可能是最优的。同样值得注意的是,对于这些类型的无限时间范围的MDP,您可以证明最优策略始终是平稳的,也就是说,如果在时间1中采取缓慢的动作是最优的,那么在任何时候采取缓慢的行动都是最优的。
最后,在实践中,状态和操作的数量要比这个问题大得多,通常需要更高级的技术,例如值迭代、策略迭代或动态规划。
https://stackoverflow.com/questions/27877782
复制相似问题