首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >个体特征的多重共线性与影响

个体特征的多重共线性与影响
EN

Data Science用户
提问于 2019-11-10 18:54:14
回答 1查看 210关注 0票数 1

假设以下情况:

  1. 我有四个特性:x_1x_2x_3x_4
  2. 这些特征之间存在不可忽略的多重共线性关系。
  3. 我想用这四个特性来预测y (响应变量)。
  4. 我使用简单的多元线性回归模型:y = a_1x_1 + a_2x_2 + a_3x_3 + a_4x_4

比方说,我想了解一把椅子的不同部件对椅子零售价的影响。例如:

y\,\,\, =椅子零售价

x_1 =所用垫子的颜色

x_2 =椅子的总体设计

x_3 =椅子的强度

x_4 =椅子的柔软性

x_1完全独立,但由于多重共线性,其他特性都会受到其他特性的影响。例如,改变坐垫的颜色会改变椅子的设计。改变椅子的设计(结构)会改变椅子的强度。

我听说在严重的多重共线性情况下,回归系数的分析是不可靠的。

假设多元回归模型非常适合椅子价格,我能天真地使用每个特征的回归系数来理解每个特征对响应变量的影响吗?如果没有,我应该使用什么技术?

例1:如果我用红垫(x_1),我可以把零售价提高3美元。

例2:如果我使用会议室式椅子(x_2),我可以把零售价提高12美元。

EN

回答 1

Data Science用户

发布于 2019-11-10 19:43:54

当你面临多重共线性时,你的回归系数可能会有偏差,因为在多重共线性下,回归不能区分不同的影响:https://datascience.stackexchange.com/a/57118/71442

当您一次只使用一个变量时,您将面临省略的变量偏差,因为没有其他混淆因素,回归可以将相关影响归因于此。https://en.wikipedia.org/wiki/Omitted-variable_偏倚

据我所知,没有容易的方法来减轻一个或两个所描述的效果。您应该仔细检查x之间的相关性,并确定多重共线性是否是一个问题。如果是这样,并且您认为(出于理论上的原因)所有高度相关的x都很重要,您可以尝试找到(某些) x的其他表示,以减少多重共线性,例如虚拟/指示符表示。

我想你的椅子例子是通用的,所以我不推测这个。也许你可以提供一些关于实际问题的更多背景。

上述讨论涉及因果模型。如果你只对预测感兴趣(而不是统计推断),你可以用拉索观察收缩系数。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/62962

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档