文章/答案/技术大牛

发布

社区首页 >问答首页 >政策外n步抽样中的重要抽样

问政策外n步抽样中的重要抽样
EN

Data Science用户

提问于 2018-08-18 05:40:46

回答 1查看 607关注 0票数 3

在“强化学习: Sutton和Barto的介绍”的第7.3章中，非策略伪码对$Q$的更新方程如下：

计算重要抽样率：$$ \rho \leftarrow \prod^{\min(\τ+n-1，T1)}{i=\tau+1}\frac{pi(A_i \mid S_i)}{b(A_i \mid )} $$
计算截断返回的$$ G\左侧和^{{min(\tau+n，T)}_{i = \tau+1} \γ^{i-τ-1} R_i $$
计算折扣估计数：

$$ \text{If } \tau+n < T，G\左侧G+γ^n Q(S_{\tau+n}，A_{\tau+n}) $$

更新$Q$

$$ Q(S_\tau，A_\tau) \leftarrow Q(S_\tau，A_\tau) + \alpha \rho $$

($\tau$是更新估计值的时间，$t$是当前的时间步骤，$n$是$n$-step返回，$T$是终止时间步骤)

我认为，重要性抽样率$\rho$只应乘以$G$，而不应乘以$Q$，因为$Q$用于目标策略$\pi$，$G$来自行为策略$b$。换句话说，我就是这样看待这个等式的：

$$ Q_\pi \leftarrow Q_\pi + \alpha \rho_{b \to \pi} $$

我是否正确地认为这是一个错误，还是我错过了什么？

谢谢你的帮助!

machine-learning

reinforcement-learning

回答 1

Data Science用户

回答已采纳

发布于 2018-08-31 12:40:01

似乎是其他人问自己关于交叉验证的相同问题。只将比率乘以G是有意义的，因为只有G才会使用行为策略来抽样下一个n个奖励。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/37109

复制

相似问题

问政策外n步抽样中的重要抽样
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问政策外n步抽样中的重要抽样EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问政策外n步抽样中的重要抽样
EN