问MDPs的成形定理
EN

Stack Overflow用户

提问于 2022-01-20 19:11:18

回答 1查看 50关注 0票数 0

我需要帮助理解MDP的成形定理。这是相关的论文：https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf，它基本上是说，对状态和行为之间的转换具有某种报酬函数的马尔可夫决策过程，与不同的马尔可夫决策过程具有相同的最优策略，其报酬定义为R'(s，a，s') = R(s，a，s') +γ*f( s') - f(s)，其中γ是时间折现率。

我理解这个证明，但它似乎是一个很小的情况，当R(s，a，s') =0时，代理面对A -> s -> B与A -> r -> t -> B之间的路径，在原始的马尔可夫过程中，两条路径的EV值都是0，所以这两条路径都是最优的。但是，随着势的增加，我们得到了第一条路径的γ^2*f(B)-f(A)，第二条路径的γ^3*f(B)- f(A)。因此，如果γ< 1，0< f(B)，f(A)，则第二路径不再是最优路径。

我是误解了定理，还是在犯其他错误？

reinforcement-learning

markov-decision-process

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-01-21 20:43:10

您忽略了这样的假设:对于的每个终端，以及启动状态 s_T，s_0有f(s_T) = f(s_0) = 0。(请注意，在本文中有一个假设，即在终端状态之后总是有新的启动状态，并且潜在的“环绕”)。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70792122

复制

相似问题

问MDPs的成形定理
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问MDPs的成形定理EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问MDPs的成形定理
EN