首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在开放式AI健身房中实现策略迭代方法

在开放式AI健身房中实现策略迭代方法
EN

Stack Overflow用户
提问于 2017-08-01 20:05:06
回答 2查看 1.4K关注 0票数 3

我目前正在阅读Sutton & Barto的“强化学习”,我正在尝试自己编写一些方法。

策略迭代就是我目前正在做的工作。我正在尝试使用OpenAI健身房来解决一个简单的问题,比如CartPole或连续的山地车。

但是,对于策略迭代,我需要状态之间的转换矩阵和奖励矩阵。

这些是从你在OpenAI健身房构建的‘环境’中获得的吗?

我使用的是python。

如果不是,我如何计算这些值,并使用环境?

EN

回答 2

Stack Overflow用户

发布于 2017-08-03 02:12:17

不,OpenAI健身房环境不会以该形式向您提供信息。为了收集这些信息,您需要通过采样来探索环境:即选择行动并接受观察和奖励。有了这些样本,你就可以估计它们了。

近似这些值的一个基本方法是使用LSPI (最小二乘策略迭代),据我所知,您也可以在Sutton中找到有关这方面的更多信息。

票数 2
EN

Stack Overflow用户

发布于 2018-04-10 02:35:30

toy_text/discrete.py上查看这些评论

代码语言:javascript
复制
P: transitions (*)
(*) dictionary dict of dicts of lists, where
P[s][a] == [(probability, nextstate, reward, done), ...]
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45437357

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档