我的任务是搭建一个openai玩具健身房,只有有记忆力的智能体才能解决这个问题。我被给出了一个有两个门的例子,在时间t=0时,我被显示为1或-1。在t=1时,我可以移动到正确的门并打开它。
有人知道我会怎么开始吗?我想展示a2c或ppo可以使用lstm策略来解决这个问题。如何设置环境等?
发布于 2018-09-09 08:21:53
要创建一个健身房格式的新环境,它应该具有gym.core文件中提到的5个函数。
https://github.com/openai/gym/blob/e689f93a425d97489e590bba0a7d4518de0dcc03/gym/core.py#L11-L35
把这件事一步步地写下来-
这些函数足以在您的环境中运行RL代理。如果需要,可以跳过渲染、种子和关闭函数。
对于您定义的任务,您可以使用离散(2)对观察和动作空间进行建模。0表示第一个门,1表示第二个门。
坦率地说,对于任何强化学习算法来说,您描述的问题似乎太简单而无法实现,但我假设您已经提供了一个示例。记住更长的视野通常更难。
您可以阅读他们的文档和玩具环境,以了解如何创建它们。
https://stackoverflow.com/questions/52106821
复制相似问题