文章/答案/技术大牛

发布

社区首页 >问答首页 >如何计算经常性公用事业的最佳政策？

问如何计算经常性公用事业的最佳政策？
EN

Stack Overflow用户

提问于 2015-01-10 15:23:39

回答 1查看 62关注 0票数 0

考试解决方案

我正在学习马尔可夫决策过程，对于考试的第6题(见上面所附的链接)，我理解在动作后获得相同状态时如何计算效用(问题6的a部分)。

J*(cool) = 4 + 0.9 * J*(cool)

但我不明白如何计算其他状态和行动(问题6的b部分)。我假设方程式是这样的：

在“酷”一词中的动作“快”：

J*(cool) = 10 + 0.9 * (0.25 * J*(cool) + 0.75 * J*(warm))

在“温暖”状态下的行动“缓慢”：

J*(warm) = 4 + 0.9 * (0.5 * J*(cool) + 0.5 * J*(warm))

在“温暖”状态下的“快速”行动：

J*(warm) = 10 + 0.9 * (0.875 * J*(warm) + 0.125 * J*(off))

但是我们在这些方程中没有一个单一的变量，我们没有这些状态的效用？我们如何获得与每个操作相关联的预期实用程序的值？

artificial-intelligence

markov

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-01-16 00:31:59

你用这些方程式走在正确的轨道上。您只需要依次考虑这四种可能的策略：(慢，慢)，(快，慢)，(慢，快)，(快，快)。

考虑一下(慢速，快速)

从a)你已经看到J*(酷)= 40。

J*(warm) = 10 + 0.9 * (0.875 * J*(warm) + 0.125 * J*(off))
J*(warm) = 10 + 0.9 * (0.875 * J*(warm) + 0.125 * 0)
J*(warm) = 47.06

用于(慢，慢)

同样，在温暖的状态下，J*(酷)与你的行为无关，所以J*(酷)= 40。

J*(warm) = 4 + 0.9 * (0.5 * J*(cool) + 0.5 * J*(warm))
J*(warm) = 4 + 0.9 * (0.5 * 40 + 0.5 * J*(warm))
J*(warm) = 40

对于(fast，fast)

这一次，处于温暖状态的值与冷动作无关，从上面看是J*(温暖)= 47.06。

J*(cool) = 10 + 0.9 * (0.25 * J*(cool) + 0.75 * J*(warm))
J*(cool) = 10 + 0.9 * (0.25 * J*(cool) + 0.75 * 47.06)
J*(cool) = 53.89

最后，(快，慢)

这是最困难的情况，但我们有两个方程和两个未知数，所以我们可以用联立方程来求解。

J*(cool) = 10 + 0.9 * (0.25 * J*(cool) + 0.75 * J*(warm))
J*(warm) = 4 + 0.9 * (0.5 * J*(cool) + 0.5 * J*(warm))

J*(warm) = (4 + 0.45 * J*(cool))/0.55

J*(cool) = 10 + 0.9 * (0.25 * J*(cool) + 0.75 * (4 + 0.45 * J*(cool))/0.55)
J*(cool) = 66.94
J*(warm) = 62.04

正如我们所看到的，如果我们以温暖的状态开始，我们可以得到的最高值是62.04。从凉爽开始的最高值是66.94。这两种情况都发生在我们的政策是(快的，慢的)(冷的快，暖的慢，因此这是最优的政策)。

事实证明，不可能有最优的策略是从状态A开始，但如果从状态B开始，则不可能是最优的。同样值得注意的是，对于这些类型的无限时间范围的MDP，您可以证明最优策略始终是平稳的，也就是说，如果在时间1中采取缓慢的动作是最优的，那么在任何时候采取缓慢的行动都是最优的。

最后，在实践中，状态和操作的数量要比这个问题大得多，通常需要更高级的技术，例如值迭代、策略迭代或动态规划。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/27877782

复制

相似问题

问如何计算经常性公用事业的最佳政策？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何计算经常性公用事业的最佳政策？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何计算经常性公用事业的最佳政策？
EN