我正在学习多元线性回归模型。我构建了一个model并使用了R命令:
summary(model)我得到了这个结果:
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 253.2 on 44 degrees of freedom Multiple
R-squared: 0.3336, Adjusted R-squared: 0.2579 F-statistic: 4.405 on
5 and 44 DF, p-value: 0.002444我如何解释这个结果才能对模型的优劣做出决定呢?具体来说,44 degrees of freedom对于这种情况意味着什么?
此外,为什么我们要调整和多个r平方参数?
发布于 2016-04-30 18:29:22
我要一个接一个回答你的问题。
这仅仅意味着你建立的模型是用44个自变量来构造的。例如,看起来像y= a_x +b的模型有一个自变量(即a),因此有一个自由度。一个类似于y= a_x1 + b*x2 +c的模型将有2个自变量(即a和b),从而有2个自由度。
在这里,为了解释它,多重R-平方等于(简单)R-平方,对于具有1自由度的线性回归模型。多重R-平方告诉我们观察到的方差的份额,这是由模型解释的。例如,如果您的R-平方倍数为0.79,这意味着您的模型解释了您数据中观察到的79%的差异。
存在多重R平方的几个问题.
问题1:每次在模型中添加预测器时,R平方都会增加,即使仅仅是由于偶然。它永远不会减少。因此,具有更多自变量(更多自由度)的模型似乎更适合,因为它具有更多的自变量。
问题2:如果一个模型有太多的预测因子和高阶多项式,它就开始对数据中的随机噪声进行建模。这种情况被认为是对模型的过度拟合,具有误导性的高R平方值和较少的预测能力。
问题1是由问题2引起的,这就是调整R-平方的地方。调整R-平方是通过因式分解自变量数来解决这些问题的一种尝试。调整后的R-平方告诉你,只有自变量实际影响到因变量所解释的变异百分比。

其中:
如果将越来越多无用的变量添加到模型中,调整后的r平方将减少.如果添加更多有用的变量,调整后的r-平方将增加.调整后的R-平方总是小于或等于R-平方。你只需要在处理样本时使用R平方。换句话说,当你有来自整个人群的数据时,R平方是不必要的。
下面是一系列有趣的文章,将帮助您更好地理解如何使用R-平方来解释模型的结果。
https://datascience.stackexchange.com/questions/6378
复制相似问题