问强化学习目标数据
EN

Stack Overflow用户

提问于 2020-07-06 10:08:01

回答 1查看 20关注 0票数 0

我有一个关于强化学习的问题。假设我们有一个能够适应不断变化的环境的机器人。类似于本文中的1。当环境光线变暗时，机器人的性能就会下降，它需要通过收集数据并再次运行Q算法来探索新的环境，以更新其策略以能够“适应”。新数据的收集和策略的更新大约需要4/5小时。我在想，如果我在同一个房间里有一大群这样的机器人，经历着同样的环境变化，那么数据收集速度是否可以加快，以便策略可以更快地更新？因此，策略可以在1小时左右更新，从而提高机器人的性能？

robotics

reinforcement-learning

回答 1

Stack Overflow用户

发布于 2020-07-07 00:10:03

我相信你正在谈论水平扩展学习，就像并行训练多个代理一样。

A3C是一种通过并行且相互独立地训练多个代理来实现这一点的算法。每个代理都有自己的环境，允许它获得与其他代理不同的体验，最终增加代理集体体验的广度。最终，每个代理异步更新一个共享网络，您可以使用此网络来驱动您的主代理。

您提到您希望对所有并行代理使用相同的环境。我可以通过两种方式来思考这一点：

如果您正在谈论代理之间的共享环境，那么这可能会加快速度，但您可能不会在性能方面获得太多收益。你也很可能面临剧集完成方面的问题-如果多个代理同时采取步骤，那么至少可以说，你的过渡将是一团糟。复杂性成本很高，收益可以忽略不计。

如果您正在谈论为每个代理克隆相同的环境，那么您最终将获得速度和更广泛的体验，这将转化为性能。这可能是明智的做法。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62748306

复制

相似问题

问强化学习目标数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问强化学习目标数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问强化学习目标数据
EN