文章/答案/技术大牛

发布

问观察意义- OpenAI健身房
EN

Stack Overflow用户

提问于 2016-09-06 13:43:14

回答 2查看 7.4K关注 0票数 9

我想知道OpenAI健身房(https://gym.openai.com/)的CartPole-v0观察规范。

例如，在下面的代码中输出observation。一种观察就像[-0.061586 -0.75893141 0.05793238 1.15547541]，我想知道这些数字是什么意思。我想通过任何方式了解其他Environments的规范，如MountainCar-v0、MsPacman-v0等。

我试着读https://github.com/openai/gym，但我不知道。你能告诉我了解规格的方法吗？

import gym
env = gym.make('CartPole-v0')
for i_episode in range(20):
    observation = env.reset()
    for t in range(100):
        env.render()
        print(observation)
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        if done:
            print("Episode finished after {} timesteps".format(t+1))
            break

(来自https://gym.openai.com/docs)

输出如下所示

[-0.061586   -0.75893141  0.05793238  1.15547541]
[-0.07676463 -0.95475889  0.08104189  1.46574644]
[-0.0958598  -1.15077434  0.11035682  1.78260485]
[-0.11887529 -0.95705275  0.14600892  1.5261692 ]
[-0.13801635 -0.7639636   0.1765323   1.28239155]
[-0.15329562 -0.57147373  0.20218013  1.04977545]
Episode finished after 14 timesteps
[-0.02786724  0.00361763 -0.03938967 -0.01611184]
[-0.02779488 -0.19091794 -0.03971191  0.26388759]
[-0.03161324  0.00474768 -0.03443415 -0.04105167]

python

machine-learning

deep-learning

reinforcement-learning

openai-gym

回答 2

Stack Overflow用户

发布于 2017-03-04 08:35:17

OpenAI健身房中使用的观察空间与原始论文不完全相同。看看OpenAI的wiki就能找到答案。观察空间是一个四维空间，每个维度如下：

Num Observation Min Max 0 Cart Position -2.4 2.4 1 Cart Velocity -Inf Inf 2 Pole Angle ~ -41.8° ~ 41.8° 3 Pole Velocity At Tip -Inf Inf

票数 8

Stack Overflow用户

发布于 2016-11-04 16:43:14

在描述OpenAI健身房网站中每个环境的段落之后，您总是有一个详细解释环境的参考资料，例如，在CartPole-v0的情况下，您可以在以下位置找到所有详细信息：

Barto83 AG Barto，RS Sutton和CW Anderson，“可以解决困难的学习控制问题的类神经元自适应元件”，IEEE系统，人类和控制论学报，1983年。

在这篇论文中，您可以看到cart-pole有四个状态变量：

小车在轨道上的位置
杆的角度与垂直的
小车速度
角度的变化率

因此，observation只是一个包含四个状态变量的值的向量。

同样，MountainCar-v0的详细信息可以在

Moore90 :摩尔，机器人控制的高效记忆学习，PhD论文，剑桥大学，1990。

诸若此类。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/39341397

复制

相似问题

问观察意义- OpenAI健身房
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问观察意义- OpenAI健身房EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问观察意义- OpenAI健身房
EN