我是RL的新手,以下是来自UWaterloo的演讲。在关于政策迭代的讲座3a中,教授给出了一个MDP的例子,该公司需要在广告(A)或节省(S)决策状态下做出决策--糟糕的未知(PU),贫穷的著名(PF),著名的富人(RF)和未知的富人(RU),如下面的MDP转换图所示。

对于第二次迭代,"Rich n=1 Famous“的状态值显示为54.2。我无法通过策略迭代算法进行计算。
我的计算如下,
V_2(RF) = V_1(RF) + gamma * Sum_s'[ p(s'|s,a)]*V(s')对于保存动作,
V_2(RF) = 10 + 0.9 * [0.5*10 + 0.5 * 10] = 19这里我漏掉了什么?
发布于 2021-09-23 10:07:28
我想我找到答案了。V不是迭代的值更新,而是策略下的值(不同于值迭代)。因此,我们需要将线性方程求解为,
V = (I - gama*P)^-1 * R ; matrix inverse method在用于最佳策略动作第二次迭代倍频程中,值将是,
octave:32> A=eye(4) - 0.9*[0.5 0.5 0 0; 0.5 0 0.5 0;0 0 0.5 0.5;0.5 0 0 0.5]
A =
0.5500 -0.4500 0 0
-0.4500 1.0000 -0.4500 0
0 0 0.5500 -0.4500
-0.4500 0 0 0.5500
octave:35> B=[0;0;10;10]
B =
0
0
10
10
octave:36> A\B
ans =
31.585
38.604
54.202
44.024https://stackoverflow.com/questions/69294770
复制相似问题