对于我的生活,我不明白"num_envs_per_worker“是做什么的。如果限制因素是策略评估,为什么我们需要创建多个环境?难道我们不需要创建多个策略吗?
请给我ELI5?
医生说:
单个进程中的
向量化:虽然许多env可以实现每个核心的高帧速率,但它们的吞吐量在实践中由于步骤间的策略评估而受到限制。例如,即使是小型TensorFlow模型也需要几毫秒的延迟来评估。可以通过在每个进程中创建多个env并对这些env进行批处理策略评估来解决这一问题。您可以将{"num_envs_per_worker":M}配置为让RLlib为每个工作人员创建M并发环境。RLlib通过VectorEnv.wrap()自动矢量化健身房环境。
发布于 2020-07-11 15:07:00
可能有点晚了,但我的理解是:
正如您所引用的文档中所提到的,
https://stackoverflow.com/questions/60515722
复制相似问题