假设我想使用随机森林模型来预测未来的数据。我正在考虑两种方法来训练这个模型,选择最好的超参数,并将这个模型投入生产。这两种方法的不同之处在于,第一种方法将数据分割成训练和测试集,而第二种方法没有。
这两种方法我都能用吗?其中一种比另一种更好吗?我想第二种方法的一个缺点是,没有公正的性能评估,但这真的重要吗?
1)
model
<代码>H 19得到测试集上的无偏性能评估<代码>H 210<代码>H 111对完整数据集的最佳模型<代码>H 212<代码>H 113使用完整数据集上的最后一个k-折叠交叉验证来预测未来数据。H 222
选择在k验证集上性能最好的超参数。在完全数据上训练最佳模型使用最终模型预测未来数据
发布于 2020-11-20 15:10:49
交叉验证是k折叠验证的一个具体例子,在这里,k = (1/split_rate) - 1只执行1轮验证。因此,当您已经通过k折叠验证进行优化时,不需要交叉验证。
https://stackoverflow.com/questions/64931803
复制相似问题