如果我们假设这是梯度下降法的公式:
由于我们没有精确的值,而不是导数,这是否意味着我们减去导数的值,并且只用于控制x的下一个位置的方向?为什么我们要减去导数,而不减去依赖于x的任何其他值?
发布于 2021-06-11 15:08:06
假设我想找到函数f(x)在x_m附近的最小值。然后我有三个选择:
所以:
到目前为止,衍生品似乎是一个很好的选择,可以用来更新我最初的猜测。如果也考虑到震级,我们有:
因此,导数震级也可以使用。
到目前为止,我们已经观察和推断:x_{m'}-x_m = \Delta x \sim -f'(x_m)或:x_{m'} = x_m - \lambda f'(x_m)是一个很好的方案来更新我的猜测。
学习速率( \lambda )是满足以下两项条件的必要参数:
参考文献:
https://datascience.stackexchange.com/questions/96515
复制相似问题