首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >神经网络优化数学直觉

神经网络优化数学直觉
EN

Data Science用户
提问于 2019-05-10 03:06:31
回答 2查看 63关注 0票数 2

当我查看下面的偏导数时,我认为它是任何优化算法的关键元素。如果我错了,请纠正我,但是这得到了损失函数的斜率,所以我们可以与那个斜率相反,从而最小化损失。

\frac{\partial \theta}{\partial \mathcal{L}}

其中:\theta是权重,\mathcal{L}是损失;

这有意义吗?除了这个导数,还有其他的计算步骤可以说是优化神经网络的基础吗?

这个话题现在对我来说特别重要,因为我在考虑纹身这个派生词,作为一个很酷的人工智能纹身,我希望它是基本的,简单的。

EN

回答 2

Data Science用户

回答已采纳

发布于 2019-05-11 15:02:36

请注意,\frac{\partial L}{\partial \theta}\frac{\partial \theta}{\partial L}不同。您试图描述的似乎是\frac{\partial L}{\partial \theta},其中\theta是一个变量。如果\theta是高维的,有时我们只使用\nabla表示法。

梯度下降

\theta_{n+1}=\theta_n-\gamma \nabla L(\theta_n)
  • 不是所有的东西都是可微的,对于某些优化问题,梯度可能没有很好的定义。
  • 在存在约束的情况下,L可能需要充当朗格朗日函数而不是目标函数。
  • 梯度下降只是寻找模型参数的一种方法。基于梯度的方法似乎是目前的常态,但情况可以改变。

你建议纹身的只是“坡度”或“斜度”。不是反对,只是想让你知道你在做什么。

票数 3
EN

Data Science用户

发布于 2019-05-10 07:13:16

除了你的纹身,在梯度下降,损失函数需要最小化,这是我们的目标函数在这种情况下。

渐变更新规则指出,

\Large \theta_{ij} = \theta_{ij} - \frac{\partial L}{\partial \theta_{ij}}

其中\theta是需要优化的参数。这是梯度下降的基本方程,它是几乎所有AI/ML任务的优化算法。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/51714

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档