我有一个开放的人工智能健身房的环境,那里的观测空间大约是12,12.5,16.7,一个值是离散的,另外两个值是连续的,我如何在健身房中定义它呢?
我试过使用多重离散和离散,但它不覆盖连续空间,我也尝试了框,但第一个整数是有问题的。
发布于 2022-03-27 10:49:49
在强化学习中,您通常希望在0-1范围内对观测值进行规范化(特别是当您使用神经网络作为函数逼近器时)。因此,在0-1范围内使用框是有意义的。
https://stackoverflow.com/questions/71564661
复制相似问题