我正在研究一个预测模型。为了得到可能的最佳模型,我使用cross_val_score与CV=10和RMSE在不同的模型之间进行比较,我得到的结果如下:
Lasso SVR NuSVR GradientBoostingRegressor RandomForestRegressor
Modeling Methods(15 fact and FR) 0.748253 0.779394 0.776631 0.796389 0.792362由此可见,基于RMSE的最好模型是Lasso,但我试图用它来预测看不见的数据,它对每个案例只给出一个类似31.07的数字。而GradientBoostingRegressor,在所有模型中给出了最好的预测。
现在我想知道如何证明采用GradientBoostingRegressor模型是合理的,而它的均方根更高?
我的样本未见数据,带有来自Lasso的预测
Disaster Number_left county_state Total Destroyed pred_TD_actual \
0 279-17 Camden_MO 8 31.043349
1 279-17 Cole_MO 13 31.043349
2 279-17 Dent_MO 3 31.043349 发布于 2017-08-23 15:03:19
StratifiedKFold为我做到了这一点,即在应用交叉验证之前对数据进行混洗。现在,cv分数最低的模型也能给出理想的预测结果。
https://stackoverflow.com/questions/45631194
复制相似问题