我正在使用gym工具包创建我自己的env和keras-rl,以便在代理中使用我的env。问题是我的操作空间会发生变化,它取决于实际的状态。例如,我有46个可能的操作,但给定某个状态,只有7个可用,并且我无法找到建模的方法。
我已经读过这个问题了open-ai-enviroment-with-changing-action-space-after-each-step
但这并没有解决我的问题。
在Gym文档中没有这样做的说明,只有他们的Github repo (仍然开放)上的一个问题。我不能理解agent (keras-rl,dqn agent)如何选择一个动作,它是随机选择的吗?但是从哪里来呢?
有人能帮帮我吗?想法?
发布于 2019-08-27 14:14:23
我已经通过忽略任何无效的操作并让探测机制防止它被卡住来处理这个问题。快速而简单,但可能是更好的方法。
我认为更好的选择是以某种方式将选择该操作的概率设置为零,但我很难弄清楚如何做到这一点。
https://stackoverflow.com/questions/52970928
复制相似问题