为什么DQN经常使用,而几乎没有发生深萨萨?我发现这篇论文https://arxiv.org/pdf/1702.03118.pdf使用它,但没有其他可能相关的。我认为原因可能是Ape-X架构,它出现在Deep论文之后的一年,并允许为非策略算法产生大量的经验。这是有意义的,还是他们的其他原因?
发布于 2022-05-10 12:47:43
非策略学习允许您使用经验回放,这是一个有限的历史桶存储最近的经验,然后您可以使用它来随机抽样一小部分事件,并培训您的模型在这些事件。这样做是为了打破事件的自相关性(结果越接近时间),这会在训练神经网络时产生问题。这种方法不能用于SARSA,因为它使用下一个动作来训练模型。我确信有人已经想出了一些方法来破解这个问题,但是它并不是真正的目的。
https://datascience.stackexchange.com/questions/110831
复制相似问题