对于离散的动作空间环境,RL算法可以通过简单地映射(或舍入)agent在连续空间范围(健身房环境)中的动作到openai健身房环境中的离散动作来实现RL算法吗?
发布于 2022-01-21 20:36:08
是的,它是双向工作的,对于具有动作空间A_E的环境E,您只需定义一个包装器W,这样W(A)就有您所选择的动作空间A_W,并且它只是在中间转换动作。现在,这是最有效的方法吗?可能不会,通常使用--任何已知的问题结构--都会带来更好的结果。
https://stackoverflow.com/questions/70796917
复制相似问题