首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >DQN -目标值与动作值?

DQN -目标值与动作值?
EN

Data Science用户
提问于 2019-07-21 17:42:25
回答 1查看 1.4K关注 0票数 1

我试图理解深度Q网络中的目标值和动作值之间的区别。

据我所知,行动价值试图近似于某一特定行为的回报(在某种状态下)。目标值也是报酬的近似值.他们有什么不同?

参考文献

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-07-21 18:45:07

DQN中的动作值和目标值在度量上是相同的,但得到的方法和使用的方式不同。

行为值并不近似于给定行为的报酬,而是表示期望回报的相关概念--在状态a中采取行动s时的预期折扣的未来报酬之和。您经常会看到它与动作值函数q(s,a)相关联。

行为值本身并不是近似的,它们更具有概念性。然而,在实际的强化学习(RL)中,必须学习动作值函数,并根据观察到的数据使用某种形式的近似。当一个动作值函数在学习过程中被一个神经网络近似时,你可能会看到它写成\hat{q}(s,a,\theta),这表明神经网络逼近的是一些你不知道的“真”函数,并且它是由\theta、神经网络的权重和偏差来参数化的。

在学习过程中,行为者采取行动,观察结果的状态和奖励。它必须利用这些观察来改进其对价值的估计。为了在DQN中这样做,代理构造了一个时差(TD)目标--对于单步Q学习,这是G_{t:t+1} = r_{t+1} + \gamma\text{max}_{a'}\hat{q}(s_{t+1},a',\theta)。这是“目标值”,有多种方法来构造它,从而产生了RL算法的变体。

G_{t:t+1}值也是对预期收益的估计。从技术上讲,这是一个抽样估计,它可能会有变化,并且可能有偏差(由于神经网络的启动条件)。但是,它包含了一些实际的经验,因此可以用来通过训练来改进神经网络。你可以用它来训练神经网络,就像与状态和行动相关的地面真理一样。

TD目标或“目标值”获得它的名称,因为通过更新Q表或用它作为基本真理对NN进行训练,估计器将在将来输出更接近所提供值的值。估计量“越来越接近目标”。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/56116

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档