首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从所见转换中确定MDP

从所见转换中确定MDP
EN

Stack Overflow用户
提问于 2018-04-21 14:17:33
回答 1查看 51关注 0票数 0

在马尔可夫决策过程中可以看到以下的转变。试着去确定

代码语言:javascript
复制
 R  A  S′ S

 0  U  C  B
-1  L  E  C
 0  D  C  A
-1  R  E  C
 0  D  C  A
+1  R  D  C
 0  U  C  B
+1  R  D  C

我需要找到状态,过渡,奖励和转换的概率。我已经解决了所有的概率,但我不知道如何计算,如果有人可以帮助,我只需要知道从哪里开始

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-04-21 14:30:59

对于状态B,操作U总是导致新的状态C。因此,P(C|B,U)=1 (您可能还会认为P(C|B)=1)。P(D|C,R)=2/3,因为在三例中,有两例RC引起了D

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49956690

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档