假设以下情况:
比方说,我想了解一把椅子的不同部件对椅子零售价的影响。例如:
y\,\,\, =椅子零售价
x_1 =所用垫子的颜色
x_2 =椅子的总体设计
x_3 =椅子的强度
x_4 =椅子的柔软性
x_1完全独立,但由于多重共线性,其他特性都会受到其他特性的影响。例如,改变坐垫的颜色会改变椅子的设计。改变椅子的设计(结构)会改变椅子的强度。
我听说在严重的多重共线性情况下,回归系数的分析是不可靠的。
假设多元回归模型非常适合椅子价格,我能天真地使用每个特征的回归系数来理解每个特征对响应变量的影响吗?如果没有,我应该使用什么技术?
例1:如果我用红垫(x_1),我可以把零售价提高3美元。
例2:如果我使用会议室式椅子(x_2),我可以把零售价提高12美元。
发布于 2019-11-10 19:43:54
当你面临多重共线性时,你的回归系数可能会有偏差,因为在多重共线性下,回归不能区分不同的影响:https://datascience.stackexchange.com/a/57118/71442。
当您一次只使用一个变量时,您将面临省略的变量偏差,因为没有其他混淆因素,回归可以将相关影响归因于此。https://en.wikipedia.org/wiki/Omitted-variable_偏倚
据我所知,没有容易的方法来减轻一个或两个所描述的效果。您应该仔细检查x之间的相关性,并确定多重共线性是否是一个问题。如果是这样,并且您认为(出于理论上的原因)所有高度相关的x都很重要,您可以尝试找到(某些) x的其他表示,以减少多重共线性,例如虚拟/指示符表示。
我想你的椅子例子是通用的,所以我不推测这个。也许你可以提供一些关于实际问题的更多背景。
上述讨论涉及因果模型。如果你只对预测感兴趣(而不是统计推断),你可以用拉索观察收缩系数。
https://datascience.stackexchange.com/questions/62962
复制相似问题