我不是一个数学专家,但对线性代数,微积分和概率有基本的理解,我理解背后的传播数学。目前我正在尝试学习策略梯度算法,但是我很难理解基本的数学。神经网络训练中最常用的成本函数包括目标函数和输出函数。例如:
其思想是寻找参数\theta,以减少目标与输出之间的距离。
但在政策梯度法中,成本函数是这样的:
政策梯度成本函数的目标和产出是什么?
这个成本函数是如何最小化的,它是如何工作的?
发布于 2019-09-21 04:09:43
在策略梯度中,我们感兴趣的是最大化预期的回报。对此,我们假设期望报酬由参数\theta (例如,神经网络)参数来表示。这意味着,为了最大化预期的回报,我们需要找到这些参数。在数学符号中:
其中\tau是从策略p_\theta中抽取的轨迹。为了解决这个问题,我们需要梯度上升,所以我们的参数被更新:\theta = \theta + \alpha\nabla J(\theta)。因此,如果我们计算期望报酬的梯度,我们将得到适当的参数更新,以获得更大的预期回报。您可以看看似然比与增强,它解析地解释了整个优化过程。
要解决这个问题,你需要策略梯度定理,它将引导你找到你的方程。换句话说,通过使用你提到的梯度形式,我们正在更新我们的参数,以获得更高的预期回报。此外,PG更接近分类(对成本敏感),而不是回归。
就神经网络(和假设随机策略)而言,通常情况下,您的输入将是状态,而您的输出将是动作分布和/或预期奖励,从而将状态映射到行动概率(和/或奖励预测)。额外的报酬预测,它已经表明,导致更好的结果比仅仅使用策略损失,因为它驱动神经网络的表示也预测预期的回报(而不仅仅是行动分布)。
https://datascience.stackexchange.com/questions/60461
复制相似问题