在以下情况下,为什么增强算法(或任何其他简单的策略梯度算法)收敛到采取行动b的最优解,即使采取行动a的起始概率要高得多?
采取行动b->奖励10
“
中重新开始
发布于 2021-01-24 23:37:55
它将收敛到采取行动b的最优解,因为具有较高报酬值的作用梯度在长期内都会采取更大的步骤。
这个问题的关键是损失函数
日志(概率(行动))*奖励
有梯度
(1/概率)*奖励
因此,如果模型对动作a的概率为90%(0.9),则损失函数的梯度为1/0.9 *奖励= 1.111 *奖励。当模型采用概率为10%(0.1)的动作b时,梯度为1/0.1 *奖赏= 10 *奖励。所以这次运行的梯度会高出9倍。这就平衡了这样一个事实:高概率的动作的权重会更频繁地增加,并将这个梯度降低到奖励。因此,模型的输出将收敛到只采取最有回报的行动。
https://stackoverflow.com/questions/65282936
复制相似问题