稳定基线中的模型在创建时需要一个环境。例如:
env = gym.make('CartPole-v1')
model = PPO2(MlpPolicy, env)评估助手还需要指定环境。即
mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=100)如果评估助手已经在模型中指定了环境,那么它的目的是什么?环境在模型创建和评估中都是一个强制性参数。
谢谢
发布于 2022-07-03 16:01:26
我认为这是为了允许在其他环境上进行评估,而不是用来训练模型的环境。
https://stackoverflow.com/questions/62809077
复制相似问题