我是数据科学方面的newby,我想寻求对模型选择的帮助。
我已经建立了8个模型,以预测工资与年度经验,职位名称和地点。然后,我试着比较了RMSE的8种型号。但最后,我不知道我应该选择哪种模式。(在我看来,我更喜欢模型8,因为经过随机森林测试后,结果要比回归好,然后我用所有的数据集做了最终版本,但解释coef比回归更难)你能帮助你选择哪一个模型,为什么?在现实中,数据科学家是这样做的,还是他们有自动处理的方法?
1 RMSElm1 :模型:线性回归,数据:训练80%,试验20%,无任何估算= 22067.58。
2 RMSElm2 2:模型:线性回归,数据:训练80%,测试20%:估算一些我认为他们给出的相同的工资= 22115.64的地点。
3 RMSElm3:模型:线性regression+逐步,数据:训练80%,试验20%无任何估算= 22081.06
4 RMSEdeep1:模型:深入学习(H2O包激活=‘整流器’,隐藏c(5,5),历元= 100,数据:训练80%,试验20%:无任何估算= 16265.13。
5 RMSErf1:模型:随机森林(ntree =10),数据:训练80%,试验20%,无任何估算= 14669.92
6 RMSErf2:模型:随机森林(ntree =500),数据:训练80%,试验20%无任何估算1 14669.92
7 RMSErf3:模型:随机森林(ntree = 10,)数据:K-折叠10无任何估算1,14440.82
8 RMSErf4模型:随机森林(ntree =10),数据:所有数据集编号:1 13532.74
发布于 2018-10-20 06:26:06
在回归问题中,mse或rmse是一种识别模型性能的方法。低rmse或mse优先。因此,使用给出最低mse或rmse值的模型,并在测试数据上进行尝试。集成方法往往能得到最好的结果。XGBoost经常用于比赛。
可能会出现过度拟合的情况,在训练数据中可能会得到非常低的rmse,而在测试数据中可能会得到很高的rmse。因此,使用交叉验证被认为是一个很好的实践。
您可能需要检查它:https://stats.stackexchange.com/questions/56302/what-are-good-rmse-values
https://stackoverflow.com/questions/52866763
复制相似问题