首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何计算SARSA的资格跟踪?

如何计算SARSA的资格跟踪?
EN

Stack Overflow用户
提问于 2014-05-09 07:36:47
回答 1查看 1.1K关注 0票数 1

我正在尝试实现资格跟踪(前瞻性),它的伪代码可以在下面的图像中找到

我不知道For all s, a是什么意思(从下面第5行)。他们从哪里得到的s, a集合?

如果它是向前看的,那么从当前状态执行循环以观察s'

你是否调整了每一个e(s, a)

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-06-20 11:07:28

不幸的是,它们在这里重用了变量s和a,但是是的,您可以调整所有e(s,a)值,例如,

代码语言:javascript
复制
for every state s in your state space
    for every action a in your action space
        update Q(s,a)
        update e(s,a)

注意这里发生了什么。e(s,a)正以指数递减量递增。但是在进入这个循环之前,就会增加对应于刚刚访问的状态/动作对的单个e(s,a)。所以这对在某种程度上得到了“重置”--它不会得到指数级的更小的更新,在下一次迭代中,它的更新将继续比你最近没有访问过的所有对都大。每次访问状态/动作对时,都会增加它对更新Q进行几次迭代的权重。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/23559050

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档