为您的环境定义观察空间和动作空间，最好使用gym.spaces模块。
记下step函数，该函数执行代理的操作，并返回一个4元组，其中包含-下一组来自环境的观察，奖励，完成-一个表示该集是否结束的布尔值，以及一些额外的信息(如果需要)。
为环境编写一个重置函数，以将该集重新初始化为随机开始状态，并返回一个类似于step的4元组。

这些函数足以在您的环境中运行RL代理。如果需要，可以跳过渲染、种子和关闭函数。

对于您定义的任务，您可以使用离散(2)对观察和动作空间进行建模。0表示第一个门，1表示第二个门。

坦率地说，对于任何强化学习算法来说，您描述的问题似乎太简单而无法实现，但我假设您已经提供了一个示例。记住更长的视野通常更难。

您可以阅读他们的文档和玩具环境，以了解如何创建它们。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52106821

复制

相似问题

问设置openai健身房
EN

问设置openai健身房EN