下面是我使用的代码。有人能建议我怎么把k-折叠也包括进去吗?
Classifi_C5.0 <- c5.0(目标~,数据= training_data_SMOTED,trails = 500,control =C5.0控制(minCases= mincases_count,noGlobalPruning = FALSE))
发布于 2015-07-02 16:58:29
我想说交叉验证在这里是不必要的,因为数据和变量的多个分区已经隐含在随机森林中了。但是,保持与训练集不同的测试集仍然是一个很好的实践。这主要是因为您可能会在随机林中引入更改,以提高测试集的总体性能,从而引入随机林试图克服的偏见。所以,如果你保留了一部分数据,并且只在预测步骤中判断了射频的最终性能,那就没问题了。
https://datascience.stackexchange.com/questions/6304
复制相似问题