我需要帮助理解MDP的成形定理。这是相关的论文:https://people.eecs.berkeley.edu/~pabbeel/cs287-fa09/readings/NgHaradaRussell-shaping-ICML1999.pdf,它基本上是说,对状态和行为之间的转换具有某种报酬函数的马尔可夫决策过程,与不同的马尔可夫决策过程具有相同的最优策略,其报酬定义为R'(s,a,s') = R(s,a,s') +γ*f( s') - f(s),其中γ是时间折现率。
我理解这个证明,但它似乎是一个很小的情况,当R(s,a,s') =0时,代理面对A -> s -> B与A -> r -> t -> B之间的路径,在原始的马尔可夫过程中,两条路径的EV值都是0,所以这两条路径都是最优的。但是,随着势的增加,我们得到了第一条路径的γ^2*f(B)-f(A),第二条路径的γ^3*f(B)- f(A)。因此,如果γ< 1,0< f(B),f(A),则第二路径不再是最优路径。
我是误解了定理,还是在犯其他错误?
发布于 2022-01-21 20:43:10
您忽略了这样的假设:对于的每个终端,以及启动状态 s_T,s_0有f(s_T) = f(s_0) = 0。(请注意,在本文中有一个假设,即在终端状态之后总是有新的启动状态,并且潜在的“环绕”)。
https://stackoverflow.com/questions/70792122
复制相似问题