首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >政策梯度的成本函数和梯度是如何工作的?

政策梯度的成本函数和梯度是如何工作的?
EN

Data Science用户
提问于 2019-09-19 16:15:33
回答 1查看 192关注 0票数 1

我不是一个数学专家,但对线性代数,微积分和概率有基本的理解,我理解背后的传播数学。目前我正在尝试学习策略梯度算法,但是我很难理解基本的数学。神经网络训练中最常用的成本函数包括目标函数和输出函数。例如:

MSE:

E_{total} = \sum{\frac{1}{2}(target - output)^2}

日志丢失:

Error = Output(i) * (1 - Output(i)) * (Target(i) - Output(i))

其思想是寻找参数\theta,以减少目标与输出之间的距离。

但在政策梯度法中,成本函数是这样的:

g = \mathbb E\Big[\sum R_t*\frac{(\partial)} {(\partial\theta)}ln\pi_\theta(a_t|s_t)\Big]

政策梯度成本函数的目标和产出是什么?

这个成本函数是如何最小化的,它是如何工作的?

EN

回答 1

Data Science用户

发布于 2019-09-21 04:09:43

在策略梯度中,我们感兴趣的是最大化预期的回报。对此,我们假设期望报酬由参数\theta (例如,神经网络)参数来表示。这意味着,为了最大化预期的回报,我们需要找到这些参数。在数学符号中:

\theta^{\star}=\arg \max _{\theta} J(\theta) =\arg \max _{\theta} E_{\tau \sim p_{\theta}(\tau)}\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right]

其中\tau是从策略p_\theta中抽取的轨迹。为了解决这个问题,我们需要梯度上升,所以我们的参数被更新:\theta = \theta + \alpha\nabla J(\theta)。因此,如果我们计算期望报酬的梯度,我们将得到适当的参数更新,以获得更大的预期回报。您可以看看似然比与增强,它解析地解释了整个优化过程。

要解决这个问题,你需要策略梯度定理,它将引导你找到你的方程。换句话说,通过使用你提到的梯度形式,我们正在更新我们的参数,以获得更高的预期回报。此外,PG更接近分类(对成本敏感),而不是回归。

就神经网络(和假设随机策略)而言,通常情况下,您的输入将是状态,而您的输出将是动作分布和/或预期奖励,从而将状态映射到行动概率(和/或奖励预测)。额外的报酬预测,它已经表明,导致更好的结果比仅仅使用策略损失,因为它驱动神经网络的表示也预测预期的回报(而不仅仅是行动分布)。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/60461

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档