我有一个Logistic回归模型。大约有10个特性,其中3个基本上是高度相关的(我们称它们为x_5、x_6、x_7)。事实上,x_5 + x_6 = x_7,但它们在商业意义上都是很重要的。
我对数据进行了日志转换,由于有相当多的零,所以我还向所有数据添加了1。这意味着:
1) x_5 + x_6 = x_7
2)我做了日志(1+ x_5)、日志(1+ x_6)和日志(1+ x_7) (还有其他特性)
然后在不同的情况下拟合Logistic回归,并检验相关系数(分别称beta_5、beta_6、beta_7表示x_5、x_6、x_7 )。这些案件概述如下。(0表示我省略了变量,即在第2种情况下省略了x_7)

有件事我觉得很困惑。
1) beta_5和beta_6的符号从例1到例2,我理解这是因为多重共线性问题。但它是否会影响我的Logistic模型的可预测性?
2)从例1到例3,beta_7值明显下降。案例3是否更好地解释了x_7的重要性?
( 3)基于这一发现,我应该使用哪一种情况?或者我该怎么做决定?
谢谢你的帮忙!
发布于 2020-05-27 04:56:10
由于您有一个控制方程x5+x6 = x7,所以您可以从一开始就删除其中的一个。要对最终解决方案充满信心,您可以应用用Lasso实现正则化来知道哪些特性可以删除。
https://stackoverflow.com/questions/61947483
复制相似问题