首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何证明使用具有较高均方根误差(cv=10)的预测模型是合理的

如何证明使用具有较高均方根误差(cv=10)的预测模型是合理的
EN

Stack Overflow用户
提问于 2017-08-11 17:07:13
回答 1查看 77关注 0票数 0

我正在研究一个预测模型。为了得到可能的最佳模型,我使用cross_val_score与CV=10和RMSE在不同的模型之间进行比较,我得到的结果如下:

代码语言:javascript
复制
                                       Lasso      SVR        NuSVR  GradientBoostingRegressor   RandomForestRegressor
Modeling Methods(15 fact and FR)    0.748253    0.779394    0.776631    0.796389                  0.792362

由此可见,基于RMSE的最好模型是Lasso,但我试图用它来预测看不见的数据,它对每个案例只给出一个类似31.07的数字。而GradientBoostingRegressor,在所有模型中给出了最好的预测。

现在我想知道如何证明采用GradientBoostingRegressor模型是合理的,而它的均方根更高?

我的样本未见数据,带有来自Lasso的预测

代码语言:javascript
复制
 Disaster Number_left       county_state  Total Destroyed  pred_TD_actual  \
0          279-17          Camden_MO                8       31.043349   
1          279-17            Cole_MO               13       31.043349   
2          279-17            Dent_MO                3       31.043349   
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-08-23 15:03:19

StratifiedKFold为我做到了这一点,即在应用交叉验证之前对数据进行混洗。现在,cv分数最低的模型也能给出理想的预测结果。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45631194

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档