我正在尝试运行/examples/rllib文件夹中的stabilizing_highway.py脚本,并收集了一组学习检查点。现在,我想将学习带来的改进与基线场景进行比较,就像没有自主代理时会发生什么一样。
我最近遇到了一个TestEnv类。如果我在相同的代码中用TestEnv替换当前的WaveAttenuationMergePOEnv env_name,它会在完全相同的配置下模拟非常正常的人类驾驶行为,而不需要学习吗?
这会是一个被视为基准的好复制品吗?
发布于 2019-12-13 22:35:01
由于您的问题是在一段时间之前提出的,您可能自己找到了答案,但我仍然尝试为其他有此问题的人回答这个问题: TestEnv类用于进行没有任何训练目标的模拟。因此,它计算零奖励,并定义空的动作空间和观察空间。据我所知,它的目的正是您所要求的。
BR,Vallout
https://stackoverflow.com/questions/58964346
复制相似问题