在具有累积资格痕迹(http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)的sarsaλ中,所给出的算法与公式不匹配。
formula说E←ɣλE+1
其中algo首先使用E←E+1进行更新,然后使用E←ɣλE进行有效的更新
E←ɣλ。(E+1)
哪一个是正确的?我还看过一些研究论文,其中包含完全相同的公式和算法。
他们没有在E+1周围放上一对括号,这是出版物中的一个差异吗?
如果是这样的话,为什么大多数研究论文都重复了同样的错误。
或
如果我误解了什么,请指出。
发布于 2016-10-21 07:36:40
我认为他们没有错过任何括号,它是EɣλE+1←,因为E应该每次都减少ɣλ,除非s是当前的。所以1指的是当前的s,这里有一个数字http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node75.html,它可以让你更好地理解这个概念,它是EQU7.5和7.6之间的那个。
https://stackoverflow.com/questions/40139841
复制相似问题