首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >MDP策略迭代示例计算

MDP策略迭代示例计算
EN

Stack Overflow用户
提问于 2021-09-23 06:05:23
回答 1查看 43关注 0票数 0

我是RL的新手,以下是来自UWaterloo的演讲。在关于政策迭代的讲座3a中,教授给出了一个MDP的例子,该公司需要在广告(A)或节省(S)决策状态下做出决策--糟糕的未知(PU),贫穷的著名(PF),著名的富人(RF)和未知的富人(RU),如下面的MDP转换图所示。

对于第二次迭代,"Rich n=1 Famous“的状态值显示为54.2。我无法通过策略迭代算法进行计算。

我的计算如下,

代码语言:javascript
复制
V_2(RF) = V_1(RF) + gamma * Sum_s'[ p(s'|s,a)]*V(s')

对于保存动作,

代码语言:javascript
复制
V_2(RF) = 10 + 0.9 * [0.5*10 + 0.5 * 10] = 19

这里我漏掉了什么?

EN

回答 1

Stack Overflow用户

发布于 2021-09-23 10:07:28

我想我找到答案了。V不是迭代的值更新,而是策略下的值(不同于值迭代)。因此,我们需要将线性方程求解为,

代码语言:javascript
复制
V = (I - gama*P)^-1 * R ; matrix inverse method

在用于最佳策略动作第二次迭代倍频程中,值将是,

代码语言:javascript
复制
octave:32> A=eye(4) - 0.9*[0.5 0.5 0 0; 0.5 0 0.5 0;0 0 0.5 0.5;0.5 0 0 0.5]
A =

   0.5500  -0.4500        0        0
  -0.4500   1.0000  -0.4500        0
        0        0   0.5500  -0.4500
  -0.4500        0        0   0.5500

 octave:35> B=[0;0;10;10]
B =

    0
    0
   10
   10

octave:36> A\B
ans =

   31.585
   38.604
   54.202
   44.024
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69294770

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档