首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >设置openai健身房

设置openai健身房
EN

Stack Overflow用户
提问于 2018-08-31 07:59:32
回答 1查看 444关注 0票数 2

我的任务是搭建一个openai玩具健身房,只有有记忆力的智能体才能解决这个问题。我被给出了一个有两个门的例子,在时间t=0时,我被显示为1或-1。在t=1时,我可以移动到正确的门并打开它。

有人知道我会怎么开始吗?我想展示a2c或ppo可以使用lstm策略来解决这个问题。如何设置环境等?

EN

回答 1

Stack Overflow用户

发布于 2018-09-09 08:21:53

要创建一个健身房格式的新环境,它应该具有gym.core文件中提到的5个函数。

https://github.com/openai/gym/blob/e689f93a425d97489e590bba0a7d4518de0dcc03/gym/core.py#L11-L35

把这件事一步步地写下来-

  1. 为您的环境定义观察空间和动作空间,最好使用gym.spaces模块。
  2. 记下step函数,该函数执行代理的操作,并返回一个4元组,其中包含-下一组来自环境的观察,奖励,完成-一个表示该集是否结束的布尔值,以及一些额外的信息(如果需要)。
  3. 为环境编写一个重置函数,以将该集重新初始化为随机开始状态,并返回一个类似于step的4元组。

这些函数足以在您的环境中运行RL代理。如果需要,可以跳过渲染、种子和关闭函数。

对于您定义的任务,您可以使用离散(2)对观察和动作空间进行建模。0表示第一个门,1表示第二个门。

  1. Reset将在观察中返回具有奖励的门。
  2. 然后代理将选择门-0或1。然后
  3. 通过调用step (操作)执行环境步骤,这将返回代理的奖励和完成标志为true -表示该集结束。

坦率地说,对于任何强化学习算法来说,您描述的问题似乎太简单而无法实现,但我假设您已经提供了一个示例。记住更长的视野通常更难。

您可以阅读他们的文档和玩具环境,以了解如何创建它们。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/52106821

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档