首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Q-Learning和TD(λ)中的奖励

Q-Learning和TD(λ)中的奖励
EN

Stack Overflow用户
提问于 2012-01-10 22:19:21
回答 2查看 1.8K关注 0票数 1

这两种RL技术中的奖励是如何工作的?我的意思是,他们都改善了政策和评估,但没有奖励。我怎么才能从一开始就猜到呢?

EN

回答 2

Stack Overflow用户

发布于 2013-03-22 13:46:52

你不需要猜测奖励。奖励是来自环境的反馈,奖励是环境的参数。算法在智能体只能观察反馈、状态空间和动作空间的条件下工作。

Q学习和TD的核心思想是异步随机逼近,我们使用长期奖励期望的噪声估计来逼近Bellman算子的不动点。

例如,如果我们想要估计期望高斯分布,那么我们可以对其进行采样和平均。

票数 0
EN

Stack Overflow用户

发布于 2013-10-20 15:24:15

强化学习适用于AI智能体没有关于其运行环境的信息的问题。因此,强化学习算法不仅为您提供了每个状态下的策略/最优操作,而且还可以在完全陌生的环境中导航(没有关于什么操作将导致哪个结果状态的知识),并学习这个新环境的参数。这些是基于模型的强化学习算法

现在Q学习和时差学习都是无模型的强化学习算法。这意味着,AI代理所做的事情与基于模型的Algo中相同,但它不必学习它正在运行的世界的模型(如转移概率)。通过多次迭代,它得到了每个状态到在该状态下执行的最佳操作的映射。

现在来回答你的问题,你不必猜测不同州的奖励。最初,当代理对环境是新的时,它只是从它所处的状态中选择要执行的随机操作,并将其提供给模拟器。模拟器基于转移函数返回该状态动作对的结果状态,还返回处于该状态的奖励。

模拟器类似于真实世界中的自然。例如,你在世界上发现了一些不熟悉的东西,你做了一些动作,比如触摸它,如果它是一个热物体,大自然会以痛苦的形式给予奖励,这样下一次你就知道当你尝试那个动作时会发生什么。在对此进行编程时,重要的是要注意,模拟器的工作对于试图学习环境的AI代理是不可见的。

现在,根据智能体感知到的奖励,它支持它的Q值(在Q-Learning的情况下)或效用值(在TD-Learning的情况下)。经过多次迭代,这些Q值收敛,您能够根据状态-动作对的Q值为每个状态选择最佳动作。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8804716

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档