文章/答案/技术大牛

发布

社区首页 >问答首页 >DQN -目标值与动作值？

问DQN -目标值与动作值？
EN

Data Science用户

提问于 2019-07-21 17:42:25

回答 1查看 1.4K关注 0票数 1

我试图理解深度Q网络中的目标值和动作值之间的区别。

据我所知，行动价值试图近似于某一特定行为的回报(在某种状态下)。目标值也是报酬的近似值.他们有什么不同？

参考文献

https://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf

reinforcement-learning

q-learning

deep-learning

回答 1

Data Science用户

回答已采纳

发布于 2019-07-21 18:45:07

DQN中的动作值和目标值在度量上是相同的，但得到的方法和使用的方式不同。

行为值并不近似于给定行为的报酬，而是表示期望回报的相关概念--在状态a中采取行动s时的预期折扣的未来报酬之和。您经常会看到它与动作值函数q(s,a)相关联。

行为值本身并不是近似的，它们更具有概念性。然而，在实际的强化学习(RL)中，必须学习动作值函数，并根据观察到的数据使用某种形式的近似。当一个动作值函数在学习过程中被一个神经网络近似时，你可能会看到它写成\hat{q}(s,a,\theta)，这表明神经网络逼近的是一些你不知道的“真”函数，并且它是由\theta、神经网络的权重和偏差来参数化的。

在学习过程中，行为者采取行动，观察结果的状态和奖励。它必须利用这些观察来改进其对价值的估计。为了在DQN中这样做，代理构造了一个时差(TD)目标--对于单步Q学习，这是G_{t:t+1} = r_{t+1} + \gamma\text{max}_{a'}\hat{q}(s_{t+1},a',\theta)。这是“目标值”，有多种方法来构造它，从而产生了RL算法的变体。

G_{t:t+1}值也是对预期收益的估计。从技术上讲，这是一个抽样估计，它可能会有变化，并且可能有偏差(由于神经网络的启动条件)。但是，它包含了一些实际的经验，因此可以用来通过训练来改进神经网络。你可以用它来训练神经网络，就像与状态和行动相关的地面真理一样。

TD目标或“目标值”获得它的名称，因为通过更新Q表或用它作为基本真理对NN进行训练，估计器将在将来输出更接近所提供值的值。估计量“越来越接近目标”。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/56116

复制

相似问题

问DQN -目标值与动作值？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问DQN -目标值与动作值？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问DQN -目标值与动作值？
EN