问问题学习:奖励计算的正确状态是什么？
EN

Stack Overflow用户

提问于 2014-04-02 08:13:35

回答 1查看 470关注 0票数 2

Q学习-奖励

我很难解释Q学习算法的伪码：

1  For each s, a initialize table entry Q(a, s) = 0
2  Observe current state s
3  Do forever:
4     Select an action a and execute it
5     Receive immediate reward r
6     Observe the new state s′ ← δ(a, s)
7     Update the table entry for Q(a, s) as follows:
8        Q( a, s ) ← R( s ) + γ * max Q( a′, s′ )
9     s ← s′

是从后续的状态s'还是当前的状态s中收集奖励？

q-learning

reinforcement-learning

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-04-02 08:20:57

奖励应该从您在执行操作 a之后输入的后续状态中收集。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/22805323

复制

相似问题

问问题学习:奖励计算的正确状态是什么？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问问题学习:奖励计算的正确状态是什么？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问问题学习:奖励计算的正确状态是什么？
EN