我试图使用贪婪向我的dqn代理添加非法行为掩蔽。有人知道我如何更新策略网络来使用observation["your_key_for_observation"]而不是“观察”,因为观察空间是包含观察和法律行为的字典吗?
发布于 2021-07-21 11:08:02
答案是在网络中添加lambda inputs: inputs["your_key_for_observation"],以防将来有人遇到这个问题。
https://stackoverflow.com/questions/68450651
复制相似问题