我有一个使用函数SavedModelPyTFEagerPolicy从磁盘读取的策略。为了排除环境定义的故障,我想检查不同状态的预测值。
我已经成功地使用这些指示从测试用例策略中提取操作。是否有允许我提取与这些操作相关的预测值的函数?
发布于 2021-08-23 10:41:42
查看Tensorflow DQN代理文档,您可以在创建时将Q网络交给代理。这个变量被保存为一个名为_q_network的实例变量,并且可以用agent._q_network访问。引用下列文件:
网络将被调用(观察,step_type),并且应该在操作空间上发出日志。
这些逻辑是您各自的状态操作值。
https://stackoverflow.com/questions/68835417
复制相似问题