文章/答案/技术大牛

发布

社区首页 >问答首页 >如何计算SARSA的资格跟踪？

问如何计算SARSA的资格跟踪？
EN

Stack Overflow用户

提问于 2014-05-09 07:36:47

回答 1查看 1.1K关注 0票数 1

我正在尝试实现资格跟踪(前瞻性)，它的伪代码可以在下面的图像中找到

我不知道For all s, a是什么意思(从下面第5行)。他们从哪里得到的s, a集合？

如果它是向前看的，那么从当前状态执行循环以观察s'

你是否调整了每一个e(s, a)

machine-learning

reinforcement-learning

sarsa

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-06-20 11:07:28

不幸的是，它们在这里重用了变量s和a，但是是的，您可以调整所有e(s，a)值，例如，

for every state s in your state space
    for every action a in your action space
        update Q(s,a)
        update e(s,a)

注意这里发生了什么。e(s，a)正以指数递减量递增。但是在进入这个循环之前，就会增加对应于刚刚访问的状态/动作对的单个e(s，a)。所以这对在某种程度上得到了“重置”--它不会得到指数级的更小的更新，在下一次迭代中，它的更新将继续比你最近没有访问过的所有对都大。每次访问状态/动作对时，都会增加它对更新Q进行几次迭代的权重。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/23559050

复制

相似问题

问如何计算SARSA的资格跟踪？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何计算SARSA的资格跟踪？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何计算SARSA的资格跟踪？
EN