文章/答案/技术大牛

发布

问MDP策略迭代示例计算
EN

Stack Overflow用户

提问于 2021-09-23 06:05:23

回答 1查看 43关注 0票数 0

我是RL的新手，以下是来自UWaterloo的演讲。在关于政策迭代的讲座3a中，教授给出了一个MDP的例子，该公司需要在广告(A)或节省(S)决策状态下做出决策--糟糕的未知(PU)，贫穷的著名(PF)，著名的富人(RF)和未知的富人(RU)，如下面的MDP转换图所示。

对于第二次迭代，"Rich n=1 Famous“的状态值显示为54.2。我无法通过策略迭代算法进行计算。

我的计算如下，

V_2(RF) = V_1(RF) + gamma * Sum_s'[ p(s'|s,a)]*V(s')

对于保存动作，

V_2(RF) = 10 + 0.9 * [0.5*10 + 0.5 * 10] = 19

这里我漏掉了什么？

dynamic-programming

reinforcement-learning

policy

markov-decision-process

回答 1

Stack Overflow用户

发布于 2021-09-23 10:07:28

我想我找到答案了。V不是迭代的值更新，而是策略下的值(不同于值迭代)。因此，我们需要将线性方程求解为，

V = (I - gama*P)^-1 * R ; matrix inverse method

在用于最佳策略动作第二次迭代倍频程中，值将是，

octave:32> A=eye(4) - 0.9*[0.5 0.5 0 0; 0.5 0 0.5 0;0 0 0.5 0.5;0.5 0 0 0.5]
A =

   0.5500  -0.4500        0        0
  -0.4500   1.0000  -0.4500        0
        0        0   0.5500  -0.4500
  -0.4500        0        0   0.5500

 octave:35> B=[0;0;10;10]
B =

    0
    0
   10
   10

octave:36> A\B
ans =

   31.585
   38.604
   54.202
   44.024

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69294770

复制

相似问题

问MDP策略迭代示例计算
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问MDP策略迭代示例计算EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问MDP策略迭代示例计算
EN