我试图理解深度Q网络中的目标值和动作值之间的区别。
据我所知,行动价值试图近似于某一特定行为的回报(在某种状态下)。目标值也是报酬的近似值.他们有什么不同?
参考文献
发布于 2019-07-21 18:45:07
DQN中的动作值和目标值在度量上是相同的,但得到的方法和使用的方式不同。
行为值并不近似于给定行为的报酬,而是表示期望回报的相关概念--在状态a中采取行动s时的预期折扣的未来报酬之和。您经常会看到它与动作值函数q(s,a)相关联。
行为值本身并不是近似的,它们更具有概念性。然而,在实际的强化学习(RL)中,必须学习动作值函数,并根据观察到的数据使用某种形式的近似。当一个动作值函数在学习过程中被一个神经网络近似时,你可能会看到它写成\hat{q}(s,a,\theta),这表明神经网络逼近的是一些你不知道的“真”函数,并且它是由\theta、神经网络的权重和偏差来参数化的。
在学习过程中,行为者采取行动,观察结果的状态和奖励。它必须利用这些观察来改进其对价值的估计。为了在DQN中这样做,代理构造了一个时差(TD)目标--对于单步Q学习,这是G_{t:t+1} = r_{t+1} + \gamma\text{max}_{a'}\hat{q}(s_{t+1},a',\theta)。这是“目标值”,有多种方法来构造它,从而产生了RL算法的变体。
G_{t:t+1}值也是对预期收益的估计。从技术上讲,这是一个抽样估计,它可能会有变化,并且可能有偏差(由于神经网络的启动条件)。但是,它包含了一些实际的经验,因此可以用来通过训练来改进神经网络。你可以用它来训练神经网络,就像与状态和行动相关的地面真理一样。
TD目标或“目标值”获得它的名称,因为通过更新Q表或用它作为基本真理对NN进行训练,估计器将在将来输出更接近所提供值的值。估计量“越来越接近目标”。
https://datascience.stackexchange.com/questions/56116
复制相似问题