我想在不同的代码中使用经过rllib训练的策略模型,在那里我需要跟踪为特定输入状态生成的操作。使用标准的TensorFlow或PyTorch (首选)网络模型可以提供这种灵活性,但我找不到关于如何从经过训练的rllib代理生成可用的dat或H5文件的明确文档,然后我可以将其加载到torch或tf/Keras模型中。
发布于 2021-05-28 18:08:18
从检查点获取权重的最简单方法是使用rllib再次加载它,然后使用Tensorflow/Pytorch命令保存它。如果你有一个keras TF模型,你可以简单地调用:
model.save('my_model.h5') # creates a HDF5 filehttps://stackoverflow.com/questions/63548115
复制相似问题