我有一个问题,我想把它表示为一个大规模的马尔可夫决策过程。我希望有一个可以预测状态转换和奖励的模型,但我想推断价值函数和策略函数。值函数和"Q“函数的近似推断,并通过线性模型或神经网络可以很好地完成。
一个关键的需求:我将增长我的状态空间,这样它就不能在内存中表示。我需要用表征状态的特征值来表示状态。
有没有库可以帮助我推断这种大规模设置中的值和策略函数?我遇到的大多数马尔可夫决策过程库似乎都是面向非常小规模的问题和精确推理的。
如果没有交钥匙解决方案,有没有人有关于如何构建这样一个系统的建议?
发布于 2021-02-13 21:38:03
您可以使用TensorFlow开发人员支持的TF-Agents,它已经预先实现了用于Q值函数近似的DQN代理。你需要做的主要事情是为你的特定环境写下代码,它和代理一起构成了你的MDP。
https://stackoverflow.com/questions/66159085
复制相似问题