首页
学习
活动
专区
圈层
工具
发布

MDP计算
EN

Stack Overflow用户
提问于 2019-06-02 17:32:54
回答 1查看 53关注 0票数 0

下面的计算是如何进行的?

EN

回答 1

Stack Overflow用户

发布于 2019-06-02 21:36:37

当您处于状态S_{n-2}时,最优操作为

代码语言:javascript
复制
[a0, a0, {a0|a1}, {a0|a1}, {a0|a1}, ...]

它会给你这个奖励序列:

代码语言:javascript
复制
[0.0, 0.0, 1.0, 1.0, 1.0, ...]

要在S_{n-2}中获得最佳值,您只需使用γ打折获得最优回报

代码语言:javascript
复制
γ^0*0.0 + γ^1*0.0 + γ^2*1.0 + γ^3*1.0 + γ^4*1.0 + ...
= γ^2 * (1.0 + γ + γ^2 + ...)
= γ^2 * V(G)

在你到达目标步骤之前,你得到的中间奖励为零。因此,这相当于将G的值折现两个时间步长。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56413853

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档