文章/答案/技术大牛

发布

社区首页 >问答首页 >政策梯度的成本函数和梯度是如何工作的？

问政策梯度的成本函数和梯度是如何工作的？
EN

Data Science用户

提问于 2019-09-19 16:15:33

回答 1查看 192关注 0票数 1

我不是一个数学专家，但对线性代数，微积分和概率有基本的理解，我理解背后的传播数学。目前我正在尝试学习策略梯度算法，但是我很难理解基本的数学。神经网络训练中最常用的成本函数包括目标函数和输出函数。例如：

MSE:

E_{total} = \sum{\frac{1}{2}(target - output)^2}

日志丢失：

Error = Output(i) * (1 - Output(i)) * (Target(i) - Output(i))

其思想是寻找参数\theta，以减少目标与输出之间的距离。

但在政策梯度法中，成本函数是这样的：

g = \mathbb E\Big[\sum R_t*\frac{(\partial)} {(\partial\theta)}ln\pi_\theta(a_t|s_t)\Big]

政策梯度成本函数的目标和产出是什么？

这个成本函数是如何最小化的，它是如何工作的？

reinforcement-learning

cost-function

policy-gradients

回答 1

Data Science用户

发布于 2019-09-21 04:09:43

在策略梯度中，我们感兴趣的是最大化预期的回报。对此，我们假设期望报酬由参数\theta (例如，神经网络)参数来表示。这意味着，为了最大化预期的回报，我们需要找到这些参数。在数学符号中：

\theta^{\star}=\arg \max _{\theta} J(\theta) =\arg \max _{\theta} E_{\tau \sim p_{\theta}(\tau)}\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right]

其中\tau是从策略p_\theta中抽取的轨迹。为了解决这个问题，我们需要梯度上升，所以我们的参数被更新：\theta = \theta + \alpha\nabla J(\theta)。因此，如果我们计算期望报酬的梯度，我们将得到适当的参数更新，以获得更大的预期回报。您可以看看似然比与增强，它解析地解释了整个优化过程。

要解决这个问题，你需要策略梯度定理，它将引导你找到你的方程。换句话说，通过使用你提到的梯度形式，我们正在更新我们的参数，以获得更高的预期回报。此外，PG更接近分类(对成本敏感)，而不是回归。

就神经网络(和假设随机策略)而言，通常情况下，您的输入将是状态，而您的输出将是动作分布和/或预期奖励，从而将状态映射到行动概率(和/或奖励预测)。额外的报酬预测，它已经表明，导致更好的结果比仅仅使用策略损失，因为它驱动神经网络的表示也预测预期的回报(而不仅仅是行动分布)。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/60461

复制

相似问题

问政策梯度的成本函数和梯度是如何工作的？
EN

MSE:

日志丢失：

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问政策梯度的成本函数和梯度是如何工作的？EN

MSE:

日志丢失：

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问政策梯度的成本函数和梯度是如何工作的？
EN