我正在研究强化学习的强化算法。我很难理解如何计算奖励。
来自Sutton &Barto的算法:

‘从步骤t返回’是什么意思?
发布于 2018-09-13 13:19:40
‘从步骤t返回’是什么意思?
两者都不是,但(1)是最近的。
即从步骤t+1到步骤T的所有奖励之和。
您可能会感到困惑,因为增强的循环从0到T-1。然而,这是合理的,因为一步抵消了从回报到奖励的总和。因此,G_{T-1} = R_T和G_{T} = 0总是(在节目结束时不可能有未来的奖励)。
发布于 2019-08-20 11:56:54
https://datascience.stackexchange.com/questions/38200
复制相似问题