在统计方面,我们几乎从来没有做过标准化工作。我们在需要时以协变量为中心,但不要进行正常化。在机器学习中,尤其是深度学习特征规范化是至关重要的。为什么它在某些应用中很重要,而在另一些应用中却不重要。
发布于 2017-04-07 20:15:58
对于机器学习方法来说,尺度是很重要的,因为它会影响目标函数的计算。
例如,许多算法使用欧氏距离进行分类,如果你有一个比其他特征值大得多的特征,它将支配距离,因此你得到的预测只会受到这个唯一特征的影响。
缩放还有助于梯度下降(在许多算法中用于最小化误差函数)的收敛速度快得多。SVMs还使用规范化值进行更快的训练。
总之,具有相同比例的所有值有助于计算。我猜为什么它在机器学习中如此重要,而在统计学上并不那么必要,原因是机器学习算法通常有循环多次迭代。在每一次迭代中,“超出规模”的值影响越来越大,主导着模型。另一方面,统计方法没有这些循环,因此缩放对它的影响不大。
https://stackoverflow.com/questions/43285445
复制相似问题