我创建了一个简单的OpenAI健身房环境,它包括:
我在解决这个环境上有困难。即使经过长时间的训练,在这方面训练的特工的得分也只略好于随机代理人。我尝试过深度Q-学习(与经验回放,目标网络)加强(有和没有基线)和PPO。
从概念上讲,这个问题很简单。经纪人只需要学会转向兔子。然而,我意识到状态表示可能会使问题更加困难,因为六个变量中只有一个直接受代理控制,其中三个(兔子状态)是完全随机的。
状态表示通常会影响问题的难度吗?这是一个糟糕的州代表吗?如何设计状态有经验法则吗?重新制定州会有帮助吗?去吗?
环境源代码这里。
发布于 2018-10-03 21:05:19
https://datascience.stackexchange.com/questions/39052
复制相似问题