在PPO的目标函数中,第二项引入了值函数神经网络的平方误差损失。这个术语本质上就是优势的平方,对吗?
发布于 2019-12-22 17:49:41
不,这是训练V的TD错误。您可以将两个损失分开,但不会发生任何变化,因为网络不共享参数。实际上,策略是在等式的第一项上训练的,而V是在第二项上训练的。
https://stackoverflow.com/questions/59222431
相似问题