首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >强化学习:强化算法中的折扣奖励

强化学习:强化算法中的折扣奖励
EN

Data Science用户
提问于 2018-09-13 12:27:58
回答 2查看 385关注 0票数 4

我正在研究强化学习的强化算法。我很难理解如何计算奖励。

来自Sutton &Barto的算法:

‘从步骤t返回’是什么意思?

  1. 从步骤t返回到步骤T1,即R_t + R_(t+1) +.+R_(T1)?
  2. 从步骤0返回到步骤t?,即R_0 + R_1 +.+ R_(t)?
EN

回答 2

Data Science用户

回答已采纳

发布于 2018-09-13 13:19:40

‘从步骤t返回’是什么意思?

  1. 从步骤t返回到步骤T1,即R_t + R_(t+1) +.+R_(T1)?
  2. 从步骤0返回到步骤t?,即R_0 + R_1 +.+ R_(t)?

两者都不是,但(1)是最近的。

G_t = \sum_{i=t+1}^T R_i

即从步骤t+1到步骤T的所有奖励之和。

您可能会感到困惑,因为增强的循环从0T-1。然而,这是合理的,因为一步抵消了从回报到奖励的总和。因此,G_{T-1} = R_TG_{T} = 0总是(在节目结束时不可能有未来的奖励)。

票数 3
EN

Data Science用户

发布于 2019-08-20 11:56:54

在本书的最新版本中,G是显式定义的,类似于尼尔·斯莱特的回答

G_t \leftarrow

从步骤t返回的是:

G_t = \sum_{k=t+1}^T \gamma^{k-t-1}R_k
票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/38200

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档