首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >连续动作空间(人形-v2)增强的实现?

连续动作空间(人形-v2)增强的实现?
EN

Stack Overflow用户
提问于 2018-04-13 03:29:53
回答 1查看 551关注 0票数 2

我已经看到了用于具有离散动作空间的强化学习任务的强化策略算法的多个实现。是否有针对连续动作空间的算法(或其他策略梯度算法)的实现?

更具体地说,有没有可能从OpenAI健身房实现两足动物运动的增强-“人形-v2”?

谢谢。

EN

回答 1

Stack Overflow用户

发布于 2018-12-12 10:52:41

你可以稳定的基线包:https://github.com/hill-a/stable-baselines

培训一个座席就像这样简单:

代码语言:javascript
复制
import gym
from stable_baselines.common.policies import MlpPolicy
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2

my_env_id = 'Humanoid-v2'

env = gym.make(my_env_id)
# Vectorized environments allow to easily multiprocess training
# we demonstrate its usefulness in the next examples
env = DummyVecEnv([lambda: env])  # The algorithms require a vectorized environment to run

model = PPO2(MlpPolicy, env, verbose=1)
# Train the agent
model.learn(total_timesteps=10000)

# Enjoy trained agent
obs = env.reset()
for i in range(1000):
    action, _states = model.predict(obs)
    obs, rewards, dones, info = env.step(action)
    env.render()
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49804489

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档