在“强化学习: Sutton和Barto的介绍”的第7.3章中,非策略伪码对$Q$的更新方程如下:
$$ \text{If } \tau+n < T,G\左侧G+γ^n Q(S_{\tau+n},A_{\tau+n}) $$
$$ Q(S_\tau,A_\tau) \leftarrow Q(S_\tau,A_\tau) + \alpha \rho $$
($\tau$是更新估计值的时间,$t$是当前的时间步骤,$n$是$n$-step返回,$T$是终止时间步骤)
我认为,重要性抽样率$\rho$只应乘以$G$,而不应乘以$Q$,因为$Q$用于目标策略$\pi$,$G$来自行为策略$b$。换句话说,我就是这样看待这个等式的:
$$ Q_\pi \leftarrow Q_\pi + \alpha \rho_{b \to \pi} $$
我是否正确地认为这是一个错误,还是我错过了什么?
谢谢你的帮助!
发布于 2018-08-31 12:40:01
似乎是其他人问自己关于交叉验证的相同问题。只将比率乘以G是有意义的,因为只有G才会使用行为策略来抽样下一个n个奖励。
https://datascience.stackexchange.com/questions/37109
复制相似问题