问健身房(openAI)环境动作空间取决于实际状态
EN

Stack Overflow用户

提问于 2018-10-24 21:59:50

回答 1查看 923关注 0票数 5

我正在使用gym工具包创建我自己的env和keras-rl，以便在代理中使用我的env。问题是我的操作空间会发生变化，它取决于实际的状态。例如，我有46个可能的操作，但给定某个状态，只有7个可用，并且我无法找到建模的方法。

但这并没有解决我的问题。

在Gym文档中没有这样做的说明，只有他们的Github repo (仍然开放)上的一个问题。我不能理解agent (keras-rl，dqn agent)如何选择一个动作，它是随机选择的吗？但是从哪里来呢？

有人能帮帮我吗？想法？

发布于 2019-08-27 14:14:23

我已经通过忽略任何无效的操作并让探测机制防止它被卡住来处理这个问题。快速而简单，但可能是更好的方法。

我认为更好的选择是以某种方式将选择该操作的概率设置为零，但我很难弄清楚如何做到这一点。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/52970928

复制

相似问题

问健身房(openAI)环境动作空间取决于实际状态EN