首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么增强算法在用不均匀概率初始化时会收敛?

为什么增强算法在用不均匀概率初始化时会收敛?
EN

Stack Overflow用户
提问于 2020-12-14 02:36:36
回答 1查看 171关注 0票数 0

在以下情况下,为什么增强算法(或任何其他简单的策略梯度算法)收敛到采取行动b的最优解,即使采取行动a的起始概率要高得多?

  1. Start in S0

  1. 采取行动a->奖励5

采取行动b->奖励10

  1. ”第一集结束,在州s0

中重新开始

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-01-24 23:37:55

它将收敛到采取行动b的最优解,因为具有较高报酬值的作用梯度在长期内都会采取更大的步骤。

这个问题的关键是损失函数

日志(概率(行动))*奖励

有梯度

(1/概率)*奖励

因此,如果模型对动作a的概率为90%(0.9),则损失函数的梯度为1/0.9 *奖励= 1.111 *奖励。当模型采用概率为10%(0.1)的动作b时,梯度为1/0.1 *奖赏= 10 *奖励。所以这次运行的梯度会高出9倍。这就平衡了这样一个事实:高概率的动作的权重会更频繁地增加,并将这个梯度降低到奖励。因此,模型的输出将收敛到只采取最有回报的行动。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65282936

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档