数据科学家/ML工程师最常用的检测特征之间共线性(或)多重共线性的一些先进或基本方法是什么?
发布于 2019-03-18 11:09:34
测量多重共线性的一种方法是方差通货膨胀因子(VIF),它评估估计的回归系数的方差在相关的情况下会增加多少。
如果不相关因素,则VIFs将全部为1。
如果VIF大于1,则预测因子可能是适度相关的。
在5到10之间的VIF表示高度相关,这可能是有问题的。
如果VIF超过10,您可以假设回归系数由于多重共线性而估计得很差。
如果您的模型中存在多重共线性问题,则解决方案可能比较简单。试一试其中一种:
从模型中删除高度相关的预测器。如果您有两个或多个具有较高VIF的因素,请从模型中删除一个。由于它们提供了冗余信息,因此去除其中一个相关因素通常不会显著降低R平方。考虑使用逐步回归、最佳子集回归或数据集的专门知识来删除这些变量。选择具有最高R平方值的模型。
使用偏最小二乘回归(PLS)或主成分分析,将预测因子的数量减少到一组较小的不相关成分的回归方法。
https://datascience.stackexchange.com/questions/47512
复制相似问题