文章/答案/技术大牛

发布

社区首页 >问答首页 >Q-Learning和TD(λ)中的奖励

问Q-Learning和TD(λ)中的奖励
EN

Stack Overflow用户

提问于 2012-01-10 22:19:21

回答 2查看 1.8K关注 0票数 1

这两种RL技术中的奖励是如何工作的？我的意思是，他们都改善了政策和评估，但没有奖励。我怎么才能从一开始就猜到呢？

reinforcement-learning

回答 2

Stack Overflow用户

发布于 2013-03-22 13:46:52

你不需要猜测奖励。奖励是来自环境的反馈，奖励是环境的参数。算法在智能体只能观察反馈、状态空间和动作空间的条件下工作。

Q学习和TD的核心思想是异步随机逼近，我们使用长期奖励期望的噪声估计来逼近Bellman算子的不动点。

例如，如果我们想要估计期望高斯分布，那么我们可以对其进行采样和平均。

票数 0

Stack Overflow用户

发布于 2013-10-20 15:24:15

强化学习适用于AI智能体没有关于其运行环境的信息的问题。因此，强化学习算法不仅为您提供了每个状态下的策略/最优操作，而且还可以在完全陌生的环境中导航(没有关于什么操作将导致哪个结果状态的知识)，并学习这个新环境的参数。这些是基于模型的强化学习算法

现在Q学习和时差学习都是无模型的强化学习算法。这意味着，AI代理所做的事情与基于模型的Algo中相同，但它不必学习它正在运行的世界的模型(如转移概率)。通过多次迭代，它得到了每个状态到在该状态下执行的最佳操作的映射。

现在来回答你的问题，你不必猜测不同州的奖励。最初，当代理对环境是新的时，它只是从它所处的状态中选择要执行的随机操作，并将其提供给模拟器。模拟器基于转移函数返回该状态动作对的结果状态，还返回处于该状态的奖励。

模拟器类似于真实世界中的自然。例如，你在世界上发现了一些不熟悉的东西，你做了一些动作，比如触摸它，如果它是一个热物体，大自然会以痛苦的形式给予奖励，这样下一次你就知道当你尝试那个动作时会发生什么。在对此进行编程时，重要的是要注意，模拟器的工作对于试图学习环境的AI代理是不可见的。

现在，根据智能体感知到的奖励，它支持它的Q值(在Q-Learning的情况下)或效用值(在TD-Learning的情况下)。经过多次迭代，这些Q值收敛，您能够根据状态-动作对的Q值为每个状态选择最佳动作。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/8804716

复制

相似问题

问Q-Learning和TD(λ)中的奖励
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Q-Learning和TD(λ)中的奖励EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Q-Learning和TD(λ)中的奖励
EN