首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >政策外n步抽样中的重要抽样

政策外n步抽样中的重要抽样
EN

Data Science用户
提问于 2018-08-18 05:40:46
回答 1查看 607关注 0票数 3

在“强化学习: Sutton和Barto的介绍”的第7.3章中,非策略伪码对$Q$的更新方程如下:

  1. 计算重要抽样率:$$ \rho \leftarrow \prod^{\min(\τ+n-1,T1)}{i=\tau+1}\frac{pi(A_i \mid S_i)}{b(A_i \mid )} $$
  2. 计算截断返回的$$ G\左侧和^{{min(\tau+n,T)}_{i = \tau+1} \γ^{i-τ-1} R_i $$
  3. 计算折扣估计数:

$$ \text{If } \tau+n < T,G\左侧G+γ^n Q(S_{\tau+n},A_{\tau+n}) $$

  1. 更新$Q$

$$ Q(S_\tau,A_\tau) \leftarrow Q(S_\tau,A_\tau) + \alpha \rho $$

($\tau$是更新估计值的时间,$t$是当前的时间步骤,$n$是$n$-step返回,$T$是终止时间步骤)

我认为,重要性抽样率$\rho$只应乘以$G$,而不应乘以$Q$,因为$Q$用于目标策略$\pi$,$G$来自行为策略$b$。换句话说,我就是这样看待这个等式的:

$$ Q_\pi \leftarrow Q_\pi + \alpha \rho_{b \to \pi} $$

我是否正确地认为这是一个错误,还是我错过了什么?

谢谢你的帮助!

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-08-31 12:40:01

似乎是其他人问自己关于交叉验证的相同问题。只将比率乘以G是有意义的,因为只有G才会使用行为策略来抽样下一个n个奖励。

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/37109

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档