问为什么分布的DQN比香草DQN快？
EN

Data Science用户

提问于 2018-06-19 01:01:49

回答 1查看 1.1K关注 0票数 2

最近我学到了RL的分布方法，这是一个非常吸引人的突破算法。

我有两个问题：

What是否使它在运行时的性能比DQN好得多？我的理解是，在运行时，我们仍然需要选择一个具有最大期望值的操作。但是要计算这些期望值，我们现在必须查看$x_{t+1}$上所有可能的操作的分布，然后选择一个期望值最高的操作。这实际上意味着在运行时进行额外的工作。

What是其收敛速度快于香草DQN?的解释，据我所知，策略没有改变，我们仍在从state $x_{t+1}$中选择最佳动作，然后使用它的最佳动作分布来引导(调整)当前状态最佳动作的分布。

分配部分在哪里发挥作用，使网络在选择行动时变得更聪明？(目前，我们仍然选择最高期望的动作作为“目标远端”)。

reinforcement-learning

dqn

回答 1

Data Science用户

回答已采纳

发布于 2019-04-09 06:03:15

这是一个评论，但我不能评论，因为我没有足够的声誉。

至于第二个问题，从直觉上讲，与其对最初可能非常不准确和嘈杂的行为取标量值，不如采取一种分布更为准确。我推荐https://flyyufelix.github.io/2017/10/24/distributional-bellman.html，它解释了使用发行版的直观原因

在收敛方面，实际上没有收敛的保证。然而，在本文中解释说，为了保证分布式DQN收敛，必须满足伽马收缩，如果使用wasserstein距离来度量分布之间的距离，这是正确的，但是尝试最小化这一距离是不切实际的，因此分布式DQN使用交叉熵代替了它，您可以找到backpropagation....etc的梯度，并执行。

您可能对“分位数回归分配强化学习”https://arxiv.org/pdf/1710.10044.pdf感兴趣，其目的是改进原有的分布式DQN算法。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/33345

复制

相似问题

问为什么分布的DQN比香草DQN快？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么分布的DQN比香草DQN快？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么分布的DQN比香草DQN快？
EN