我有一个关于this SARSA的问题。
在输入单元格142中,我看到了这个修改后的更新
w += alpha * (reward - discount * q_hat_next) * q_hat_grad其中q_hat_next是Q(S', a'),q_hat_grad是Q(S, a)的导数(假设是S, a, R, S' a'序列)。
我的问题是更新不应该是这样的吗?
w += alpha * (reward + discount * q_hat_next - q_hat) * q_hat_grad修改后的更新背后的直觉是什么?
https://stackoverflow.com/questions/51371975
复制相似问题