我已经创建了一个自定义的健身房环境,其中的动作可以是-100到+100之间的任何整数。据我所知,不可能创建一个允许负值的离散空间,我提供的唯一解决方案是创建一个从-100到+100的Box空间(请注意,这是一个连续的空间)。
由于大多数强化学习代理假定动作空间为离散空间,因此我在运行代码时遇到了困难(我知道有一些代理运行在连续的操作空间中,比如DDPG )。
在健身房里有可能有一个允许负值的离散空间吗?
发布于 2019-11-14 00:17:28
AFAIK,在OpenAI-Gym离散环境中,您对每个可能的操作都有索引,因为您可能不需要负值。但是,您可以将每个操作索引映射为任意值(正值或负值)。
例如,在Cartpole环境中,可以对购物车应用正(向右推)或负(向左推)力。这个问题是使用离散环境建模的,其中action 0 = negative force和action 1 = positive force。有关更多详细信息,请查看Cartpole source code (例如,第95行)。
类似地,在您的案例中,尽管您的200个操作索引都是积极的,但它们可以代表积极或消极的行动。
https://stackoverflow.com/questions/58836093
复制相似问题