首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >这是在Sutton&Barto的RL书中的SARSAλ主题中的错误吗?

这是在Sutton&Barto的RL书中的SARSAλ主题中的错误吗?
EN

Stack Overflow用户
提问于 2016-10-20 03:20:16
回答 1查看 153关注 0票数 2

在具有累积资格痕迹(http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)的sarsaλ中,所给出的算法与公式不匹配。

formula说E←ɣλE+1

其中algo首先使用E←E+1进行更新,然后使用E←ɣλE进行有效的更新

E←ɣλ。(E+1)

哪一个是正确的?我还看过一些研究论文,其中包含完全相同的公式和算法。

他们没有在E+1周围放上一对括号,这是出版物中的一个差异吗?

如果是这样的话,为什么大多数研究论文都重复了同样的错误。

如果我误解了什么,请指出。

EN

回答 1

Stack Overflow用户

发布于 2016-10-21 07:36:40

我认为他们没有错过任何括号,它是EɣλE+1←,因为E应该每次都减少ɣλ,除非s是当前的。所以1指的是当前的s,这里有一个数字http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node75.html,它可以让你更好地理解这个概念,它是EQU7.5和7.6之间的那个。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40139841

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档