文章/答案/技术大牛

发布

社区首页 >问答首页 >在开放式AI健身房中实现策略迭代方法

问在开放式AI健身房中实现策略迭代方法
EN

Stack Overflow用户

提问于 2017-08-01 20:05:06

回答 2查看 1.4K关注 0票数 3

我目前正在阅读Sutton & Barto的“强化学习”，我正在尝试自己编写一些方法。

策略迭代就是我目前正在做的工作。我正在尝试使用OpenAI健身房来解决一个简单的问题，比如CartPole或连续的山地车。

但是，对于策略迭代，我需要状态之间的转换矩阵和奖励矩阵。

这些是从你在OpenAI健身房构建的‘环境’中获得的吗？

我使用的是python。

如果不是，我如何计算这些值，并使用环境？

python

machine-learning

reinforcement-learning

openai-gym

回答 2

Stack Overflow用户

发布于 2017-08-03 02:12:17

不，OpenAI健身房环境不会以该形式向您提供信息。为了收集这些信息，您需要通过采样来探索环境:即选择行动并接受观察和奖励。有了这些样本，你就可以估计它们了。

近似这些值的一个基本方法是使用LSPI (最小二乘策略迭代)，据我所知，您也可以在Sutton中找到有关这方面的更多信息。

票数 2

Stack Overflow用户

发布于 2018-04-10 02:35:30

在toy_text/discrete.py上查看这些评论

P: transitions (*)
(*) dictionary dict of dicts of lists, where
P[s][a] == [(probability, nextstate, reward, done), ...]

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/45437357

复制

相似问题

问在开放式AI健身房中实现策略迭代方法
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在开放式AI健身房中实现策略迭代方法EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在开放式AI健身房中实现策略迭代方法
EN