我正在尝试实现资格跟踪(前瞻性),它的伪代码可以在下面的图像中找到

我不知道For all s, a是什么意思(从下面第5行)。他们从哪里得到的s, a集合?
如果它是向前看的,那么从当前状态执行循环以观察s'
你是否调整了每一个e(s, a)
发布于 2014-06-20 11:07:28
不幸的是,它们在这里重用了变量s和a,但是是的,您可以调整所有e(s,a)值,例如,
for every state s in your state space
for every action a in your action space
update Q(s,a)
update e(s,a)注意这里发生了什么。e(s,a)正以指数递减量递增。但是在进入这个循环之前,就会增加对应于刚刚访问的状态/动作对的单个e(s,a)。所以这对在某种程度上得到了“重置”--它不会得到指数级的更小的更新,在下一次迭代中,它的更新将继续比你最近没有访问过的所有对都大。每次访问状态/动作对时,都会增加它对更新Q进行几次迭代的权重。
https://stackoverflow.com/questions/23559050
复制相似问题