我使用的是梯度增强回归模型 (GBRT)。
为了评估这个模型,我使用了10倍交叉验证,在每个中我都设置了相同的参数,因此唯一的区别就是训练和测试数据集。
对于每一个折叠,我计算的决定系数作为拟合的尺度。
然而,我发现,从每一个折叠得到的决定系数存在巨大的差异,例如,从fold_1到fold_10的决定系数是:
0.95310245 0.89725342 0.886711 0.97063794 0.84182142 0.80870443 0.70535911 0.8888032 0.42510782 0.70421155
虽然平均值为0.81,std为0.31,但其决定系数为0.4,另一倍为0.97。
为什么会有这么大的差异?这样的差异是否表明我的模型的性能不好?
发布于 2014-09-14 16:13:26
通常这意味着你有过度拟合的问题,尝试选择不同的参数集.您可以在“使用带有交叉验证的网格搜索的参数估计”中学习有关参数搜索的更多信息-学习示例digits.html。
https://stackoverflow.com/questions/25808124
复制相似问题