如果数据既包含分类自变量又包含连续自变量,那么可以使用哪些不同的方法来检查多重共线性?
是否可以通过将分类变量转换为虚拟变量来使用VIF?由于我在互联网上找不到任何参考材料,这有什么根本的缺陷吗?
发布于 2017-05-28 11:34:00
Can I use VIF by converting categorical variables into dummy variables ?可以,停那儿吧。这种方法没有根本性的缺陷。
if the data contains both categorical and continuous independent variables?多重共线性并不关心它是分类变量还是整数变量。分类变量没有什么特别之处。将分类变量转换为二进制,并将它们视为所有其他变量。
我假设你关注的是分类变量必须相互关联,这是一个合理的关注。假设引用类别中的案例比例很小。假设有3个分类变量:超重、正常、减重。我们可以把它变成2个分类变量。然后,如果一个类别的数据非常小(比如正常人100人中有5人体重不足或体重超重),那么即使类别变量与回归模型中的其他变量没有关联,指标变量也必然具有高的VIFs。
What are the different measures available to check for multicollinearity检测多重共线性的一种方法是获取数据的相关矩阵,并检查相关矩阵的特征值。
接近0的特征值表示数据是相关的。
https://stackoverflow.com/questions/35998395
复制相似问题