我目前正在阅读Sutton & Barto的“强化学习”,我正在尝试自己编写一些方法。
策略迭代就是我目前正在做的工作。我正在尝试使用OpenAI健身房来解决一个简单的问题,比如CartPole或连续的山地车。
但是,对于策略迭代,我需要状态之间的转换矩阵和奖励矩阵。
这些是从你在OpenAI健身房构建的‘环境’中获得的吗?
我使用的是python。
如果不是,我如何计算这些值,并使用环境?
发布于 2017-08-03 02:12:17
不,OpenAI健身房环境不会以该形式向您提供信息。为了收集这些信息,您需要通过采样来探索环境:即选择行动并接受观察和奖励。有了这些样本,你就可以估计它们了。
近似这些值的一个基本方法是使用LSPI (最小二乘策略迭代),据我所知,您也可以在Sutton中找到有关这方面的更多信息。
发布于 2018-04-10 02:35:30
在toy_text/discrete.py上查看这些评论
P: transitions (*)
(*) dictionary dict of dicts of lists, where
P[s][a] == [(probability, nextstate, reward, done), ...]https://stackoverflow.com/questions/45437357
复制相似问题