我读过一些文章,但还是找不出决斗DQN和双DQN之间的区别吗?他们之间到底有什么区别?另外,决斗DQN需要建立在双DQN之上吗?谢谢!
发布于 2019-07-03 19:38:48
它们是不同的技术。Double使用两个网络来避免过于乐观的Q值。决斗使用两个新的流--价值和优势--分离估计器。然后对这两个流进行聚合。
https://datascience.stackexchange.com/questions/52997
相似问题