在马尔可夫决策过程中可以看到以下的转变。试着去确定
R A S′ S
0 U C B
-1 L E C
0 D C A
-1 R E C
0 D C A
+1 R D C
0 U C B
+1 R D C我需要找到状态,过渡,奖励和转换的概率。我已经解决了所有的概率,但我不知道如何计算,如果有人可以帮助,我只需要知道从哪里开始
发布于 2018-04-21 14:30:59
对于状态B,操作U总是导致新的状态C。因此,P(C|B,U)=1 (您可能还会认为P(C|B)=1)。P(D|C,R)=2/3,因为在三例中,有两例R在C引起了D。
https://stackoverflow.com/questions/49956690
复制相似问题