我有一个关于强化学习的问题。假设我们有一个能够适应不断变化的环境的机器人。类似于本文中的1。当环境光线变暗时,机器人的性能就会下降,它需要通过收集数据并再次运行Q算法来探索新的环境,以更新其策略以能够“适应”。新数据的收集和策略的更新大约需要4/5小时。我在想,如果我在同一个房间里有一大群这样的机器人,经历着同样的环境变化,那么数据收集速度是否可以加快,以便策略可以更快地更新?因此,策略可以在1小时左右更新,从而提高机器人的性能?
发布于 2020-07-07 00:10:03
我相信你正在谈论水平扩展学习,就像并行训练多个代理一样。
A3C是一种通过并行且相互独立地训练多个代理来实现这一点的算法。每个代理都有自己的环境,允许它获得与其他代理不同的体验,最终增加代理集体体验的广度。最终,每个代理异步更新一个共享网络,您可以使用此网络来驱动您的主代理。
您提到您希望对所有并行代理使用相同的环境。我可以通过两种方式来思考这一点:
https://stackoverflow.com/questions/62748306
复制相似问题