文章/答案/技术大牛

发布

社区首页 >问答首页 >集成机器学习模型栈预测效率和预测误差的推导

问集成机器学习模型栈预测效率和预测误差的推导
EN

Stack Overflow用户

提问于 2019-09-15 18:41:38

回答 1查看 269关注 0票数 2

我试图导出集成模型的预测误差，这些模型是在mlr包中使用makeStackedLearner来安装的。以下是我要采取的步骤：

> library(mlr)
> library(matrixStats)
> data(BostonHousing, package = "mlbench")
> tsk = makeRegrTask(data = BostonHousing, target = "medv")
> BostonHousing$chas = as.numeric(BostonHousing$chas)
> base = c("regr.rpart", "regr.svm", "regr.ranger")
> lrns = lapply(base, makeLearner)
> m = makeStackedLearner(base.learners = lrns,
+                        predict.type = "response", method = "stack.cv", super.learner = "regr.lm")
> tmp = train(m, tsk)
> summary(tmp$learner.model$super.model$learner.model)

Call:
stats::lm(formula = f, data = d)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.8014  -1.5154  -0.2479   1.2160  23.6530 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.76991    0.43211  -6.410 3.35e-10 ***
regr.rpart  -0.09575    0.04858  -1.971   0.0493 *  
regr.svm     0.17379    0.07710   2.254   0.0246 *  
regr.ranger  1.04503    0.08904  11.736  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.129 on 502 degrees of freedom
Multiple R-squared:  0.885, Adjusted R-squared:  0.8843 
F-statistic:  1287 on 3 and 502 DF,  p-value: < 2.2e-16
> res = predict(tmp, tsk)

注意，我使用的是method = "stack.cv"，这意味着任何时候使用makeStackedLearner重新改装模型时，数字都会略有不同。我的第一个问题是：

从super.learner模型导出的R-平方是预测能力的客观度量吗？(我想是因为它是基于交叉验证的，应该是修改后的)

> ## cross-validation R-square
> round(1-tmp$learner.model$super.model$learner.model$deviance /
+   tmp$learner.model$super.model$learner.model$null.deviance, 3)
[1] 0.872

如何导出所有newdata行的预测错误(预测间隔)？

我目前使用的方法只是导出多个独立模型预测的标准偏差(即模型错误)：

> res.all <- getStackedBaseLearnerPredictions(tmp)
> wt <- summary(tmp$learner.model$super.model$learner.model)$coefficients[-1,4]
> res.all$model.error <- matrixStats::rowSds(
+        as.matrix(as.data.frame(res.all))[,which(wt<0.05)], na.rm=TRUE)
> res$data[1,]
  id truth response
1  1    24 26.85235
> res.all$model.error[1]
[1] 2.24609

在这种情况下，预测值为26.85，真理为24，预测误差估计为2.24。同样，由于使用了stack.cv方法，所以每次您重构模型时都会得到稍微不同的值。你知道有类似的方法来导出集成模型的预测误差吗？提前谢谢。

prediction

ensemble-learning

mlr

回答 1

Stack Overflow用户

发布于 2020-05-14 09:08:12

要派生预测区间 (新数据中的单个错误)，我们可以使用predict.lm函数：

> m = makeStackedLearner(base.learners = lrns, predict.type = "response",
       method = "stack.cv", super.learner = "regr.lm")
> tmp = train(m, tsk)
> tmp$learner.model$super.model$learner.model

Call:
stats::lm(formula = f, data = d)

Coefficients:
 (Intercept)   regr.rpart     regr.svm  regr.ranger  
   -2.5879      -0.0971       0.3549       0.8635  

> res.all <- getStackedBaseLearnerPredictions(tmp)
> pred.error = predict(tmp$learner.model$super.model$learner.model, 
        newdata = res.all, interval = "prediction", level=2/3)
> str(pred.error)
 num [1:506, 1:3] 29.3 23.3 34.6 36 33.6 ...
 - attr(*, "dimnames")=List of 2
 ..$ : chr [1:506] "1" "2" "3" "4" ...
 ..$ : chr [1:3] "fit" "lwr" "upr"
> summary(tmp$learner.model$super.model$learner.model$residuals)
   Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
-11.8037  -1.5931  -0.3161   0.0000   1.1951  29.2145 
> mean((pred.error[,3]-pred.error[,2])/2)
[1] 3.253142

这是一个以lm模型作为超级学习者的例子。level参数可以用来传递不同的概率(1标准差为2/3)。在newdata上的预测应该比使用培训数据(取决于外推法)得到的要高一些。这种方法也可以推广到使用例如随机森林模型(见游侠包)和分位数回归随机森林预测区间推导(Hengl等人2019)。请注意，对于这种类型的分析，至少应该有两个基础学习者(三个推荐)。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57947197

复制

相似问题

问集成机器学习模型栈预测效率和预测误差的推导
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问集成机器学习模型栈预测效率和预测误差的推导EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问集成机器学习模型栈预测效率和预测误差的推导
EN