文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么增强算法在用不均匀概率初始化时会收敛？

问为什么增强算法在用不均匀概率初始化时会收敛？
EN

Stack Overflow用户

提问于 2020-12-14 02:36:36

回答 1查看 171关注 0票数 0

在以下情况下，为什么增强算法(或任何其他简单的策略梯度算法)收敛到采取行动b的最优解，即使采取行动a的起始概率要高得多？

Start in S0

采取行动a->奖励5

采取行动b->奖励10

“

”第一集结束，在州s0

中重新开始

machine-learning

state

reinforcement-learning

montecarlo

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-01-24 23:37:55

它将收敛到采取行动b的最优解，因为具有较高报酬值的作用梯度在长期内都会采取更大的步骤。

这个问题的关键是损失函数

日志(概率(行动))*奖励

有梯度

(1/概率)*奖励

因此，如果模型对动作a的概率为90%(0.9)，则损失函数的梯度为1/0.9 *奖励= 1.111 *奖励。当模型采用概率为10%(0.1)的动作b时，梯度为1/0.1 *奖赏= 10 *奖励。所以这次运行的梯度会高出9倍。这就平衡了这样一个事实:高概率的动作的权重会更频繁地增加，并将这个梯度降低到奖励。因此，模型的输出将收敛到只采取最有回报的行动。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65282936

复制

相似问题

问为什么增强算法在用不均匀概率初始化时会收敛？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么增强算法在用不均匀概率初始化时会收敛？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么增强算法在用不均匀概率初始化时会收敛？
EN