有没有一种方法可以遍历每个状态,强制环境转到那个状态,然后执行一步,然后使用返回的"info“字典来查看所有可能的后继状态?
或者一种更简单的方法来恢复每个状态的所有可能的后继状态,可能隐藏在某个地方?
我在网上看到一个叫MuJoKo或类似的东西有一个set_state功能,但我不想创建一个新的环境,我只想设置openAi健身房已经提供的环境的状态。
上下文:尝试实现拓扑顺序值迭代,这需要制作一个图,其中每个状态都有到任何状态的边,任何操作都可以将其转换到该状态。
我意识到,在一些游戏中,这显然是没有提供的,但对于那些提供了它的游戏,有没有办法?
(除了运行游戏的蛮力方法,以及在到达所有状态并看到所有情况之前,我还没有在任何状态下采取的每一步,这取决于游戏可能需要永远)
这是我第一次使用OpenAi健身房,所以请尽可能详细地解释。例如,我不知道包装器是什么。
谢谢!
发布于 2018-12-14 00:02:20
不能,OpenAI健身房没有提供所有可能的后继状态的方法。一般来说,这就是用OpenAI健身房创建算法的意义所在。你正在训练一个智能体来学习它的行动的结果是什么;如果它可以展望未来,知道它的行动的结果是什么,那么它就有点违背了目的。
您所描述的暴力方法可能是实现您所描述的内容的最简单方法。
https://stackoverflow.com/questions/53690171
复制相似问题