我知道梯度下降是做什么的。基本上,它试图通过缓慢向下移动曲线来朝着局部最优解移动。我想知道平面梯度下降法和牛顿法的实际区别是什么?
从维基百科上,我读到了这样一句简短的话:“牛顿的方法使用曲率信息来选择更直接的路线。”直观地说,这意味着什么?
发布于 2012-08-22 13:37:07
在局部最小(或最大) x处,目标函数f的导数为零:f'(x) = 0 (假设f足够平滑)。
梯度下降试图通过使用来自f的一阶导数的信息来找到这样的最小x:它只是沿着从当前点开始的最陡峭的下降。这就像在f的图表中滚动一个球,直到它停止(同时忽略惯性)。
牛顿法试图通过用线性函数x逼近f'(x) = 0,然后显式地求解该函数的根来寻找满足f'的点g (这称为牛顿求根法)。g的根不一定是f'的根,但在许多情况下它是一个很好的猜测( Wikipedia article on Newton's method for root finding有更多关于收敛标准的信息)。牛顿法在逼近f'时,利用了f'' (f的曲率)。这意味着它对f的平滑度有更高的要求,但这也意味着(通过使用更多的信息)它通常收敛得更快。
发布于 2016-02-06 06:41:03
简单地说,梯度下降,你只需要向你认为零点的地方迈出一小步,然后重新计算;,牛顿的方法,你一直走到那里。
发布于 2012-08-22 13:36:13
编辑2017年:原始链接已死-但返回机器的方式仍然有它:) https://web.archive.org/web/20151122203025/http://www.cs.colostate.edu/~anderson/cs545/Lectures/week6day2/week6day2.pdf
这个power的主要思想是简单地解释http://www.cs.colostate.edu/~anderson/cs545/Lectures/week6day2/week6day2.pdf
我希望这能有所帮助:)
https://stackoverflow.com/questions/12066761
复制相似问题