首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >了解哪些变量对您感兴趣的变量影响最大(相关、线性回归)并正确解释结果。

了解哪些变量对您感兴趣的变量影响最大(相关、线性回归)并正确解释结果。
EN

Data Science用户
提问于 2022-02-11 15:45:07
回答 1查看 67关注 0票数 1

如何确定哪些变量导致另一个感兴趣的变量的最大增长?

假设你有一个相关矩阵。您可以查看您特别感兴趣的变量行,retention,并发现在矩阵中的所有变量中,income与之关联最大。

然后,当我看到数据集中收入最高的城市时,我会期望看到它们拥有最高的retention,但我发现情况并非如此。为什么会这样呢?

对于线性回归中的加权系数,我也有类似的问题。

试图隔离哪些变量对retention的影响最大,但不理解为什么收入最高的地区没有最多的retention (如果它们相关性最大/加权系数最高)。我不想做任何预测模型。

如能提供任何协助,将不胜感激。

EN

回答 1

Data Science用户

回答已采纳

发布于 2022-02-11 17:19:59

假设您有如下R代码中的数据:

代码语言:javascript
复制
library(ISLR)
df = ISLR::Auto
df = df[,1:4]

summary(df)
round(cor(df), 2)

如果你看看相关性..。

代码语言:javascript
复制
               mpg cylinders displacement horsepower
mpg           1.00     -0.78        -0.81      -0.78
cylinders    -0.78      1.00         0.95       0.84
displacement -0.81      0.95         1.00       0.90
horsepower   -0.78      0.84         0.90       1.00

..。它暗示displacementmpg的影响“最大”。您还可能期望mpgdisplacement是负相关的。然而,请记住,相关性度量线性效应,并没有给出一个“有多强”变量是相关的好的概念,而是“有多好”的线性拟合可能“解释”的关系。

因此,为了查看哪个变量导致“最大增长”,可以使用线性回归(在这种情况下,根据相关性似乎可以)。

代码语言:javascript
复制
reg1 = lm(mpg~cylinders+displacement+horsepower,data=df)
summary(reg1)

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  39.305268   1.324633  29.673  < 2e-16 ***
cylinders    -0.719431   0.434180  -1.657 0.098331 .  
displacement -0.029120   0.008623  -3.377 0.000807 ***
horsepower   -0.059935   0.013498  -4.440 1.17e-05 ***

根据回归系数,您可能会怀疑cylinders具有“最大”的影响。然而,你需要记住一些事情。

  • cylinders的效果取决于剩余的x-variables (因此“控制”了x的其余部分)。
  • 衡量cylinders效应的标准是:“一个气缸的增加将使mpg降低-0.719,所有其他条件平均(!!)相等”。
  • cylinders的效果与零无统计学差异。因此,效果可能是零,甚至可能是负的(见p值)。
  • 当你总结数据时,你会发现它们有一个不同的尺度。因此,cylinders是用与displacement等不同的“单位”来测量的。

您需要以相同的比例尺(拥有mean = 0standard deviation = 1)的所有数据来比较“大小”的系数。

代码语言:javascript
复制
df_scaled = data.frame(scale(df))
reg2 = lm(mpg~cylinders+displacement+horsepower,data=df_scaled)
summary(reg2)

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.497e-16  2.927e-02   0.000 1.000000    
cylinders    -1.572e-01  9.489e-02  -1.657 0.098331 .  
displacement -3.904e-01  1.156e-01  -3.377 0.000807 ***
horsepower   -2.956e-01  6.657e-02  -4.440 1.17e-05 ***

使用新的缩放数据,您可以得出不同的结论。也就是说,displacement具有“强大”的影响。在回归分析中,这(有时称为贝塔系数)可能仅次于“最大影响”。

这里的定义是:“x中一个标准差的增加将导致y中的queal变为\beta,所以现在所有的x都是可比较的(因为它可以缩放到平均值= 0,标准差= 1)。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/108083

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档