最近我学到了RL的分布方法,这是一个非常吸引人的突破算法。
我有两个问题:
What是否使它在运行时的性能比DQN好得多?我的理解是,在运行时,我们仍然需要选择一个具有最大期望值的操作。但是要计算这些期望值,我们现在必须查看$x_{t+1}$上所有可能的操作的分布,然后选择一个期望值最高的操作。这实际上意味着在运行时进行额外的工作。
What是其收敛速度快于香草DQN?的解释,据我所知,策略没有改变,我们仍在从state $x_{t+1}$中选择最佳动作,然后使用它的最佳动作分布来引导(调整)当前状态最佳动作的分布。
分配部分在哪里发挥作用,使网络在选择行动时变得更聪明?(目前,我们仍然选择最高期望的动作作为“目标远端”)。
发布于 2019-04-09 06:03:15
这是一个评论,但我不能评论,因为我没有足够的声誉。
至于第二个问题,从直觉上讲,与其对最初可能非常不准确和嘈杂的行为取标量值,不如采取一种分布更为准确。我推荐https://flyyufelix.github.io/2017/10/24/distributional-bellman.html,它解释了使用发行版的直观原因
在收敛方面,实际上没有收敛的保证。然而,在本文中解释说,为了保证分布式DQN收敛,必须满足伽马收缩,如果使用wasserstein距离来度量分布之间的距离,这是正确的,但是尝试最小化这一距离是不切实际的,因此分布式DQN使用交叉熵代替了它,您可以找到backpropagation....etc的梯度,并执行。
您可能对“分位数回归分配强化学习”https://arxiv.org/pdf/1710.10044.pdf感兴趣,其目的是改进原有的分布式DQN算法。
https://datascience.stackexchange.com/questions/33345
复制相似问题