我正在努力理解置信区间的概念。点估计和置信区间的含义是什么?我所理解的是置信区间中的点估计基本上是抽样分布的统计量。我们是否可以说,在使用中心极限定理和求总体均值后,用CLT而不是给出点估计,我们就会给出置信区间?
发布于 2020-10-10 22:05:18
当您查看线性回归y_i = \beta_0 + \beta_1 x_i + u_i时,您可以使用矩阵代数(X'X)^{-1} X'y = \hat{\beta}估计(前未知)系数\beta。
一个点估计将是“最佳猜测”\hat{y}=\hat{\beta} X。
每个\hat{\beta}都与估计的不确定性相关联,用系数的标准误差表示(参见这个职位)。置信区间直观地表示,您想要找到真正的\hat{\beta}与95%的相似性(假定正态分布)的范围。在这种情况下,您可以通过以下方法计算置信区间(对于\hat{\beta}):
因此,你可以说(在某些假设下),估计的\hat{\beta}的真实值在95%概率的置信区间内。注意,在线性回归中,当你说系数是“统计显着性”时,这与“置信带严格正或负”(不超过零)是一致的。
R:
示例
线性回归:
library("ISLR")
auto = ISLR::Auto
ols = lm(mpg~horsepower,data=auto)
summary(ols)结果:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 39.935861 0.717499 55.66 <2e-16 ***
horsepower -0.157845 0.006446 -24.49 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.906 on 390 degrees of freedom
Multiple R-squared: 0.6059, Adjusted R-squared: 0.6049
F-statistic: 599.7 on 1 and 390 DF, p-value: < 2.2e-16这告诉我们,当horsepower上升一个单位时,mpg下降到-0.158 (点估计)。现在,当我们问,什么是真正的影响(在相当多的假设),95%的概率,我们看看CI。
# Confodence interval
confint(ols)这意味着:
2.5 % 97.5 %
(Intercept) 38.525212 41.3465103
horsepower -0.170517 -0.1451725我们可以“手动”使用:
# Get standard errors
sqrt(diag(vcov(ols)))
(Intercept) horsepower
0.717498656 0.006445501我们可以计算出:
# Lower CI
-0.157845 - 1.96*0.006445501
# Upper CI
-0.157845 + 1.96*0.006445501产生的结果:
[1] -0.1704782
[1] -0.1452118因此,我们可以说,horsepower对mpg的真正影响在-0.17到-0.15之间(而且由于CI不“交叉”于零,这一效应具有统计学意义,p值<0.0 5)。
https://datascience.stackexchange.com/questions/82842
复制相似问题