首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >交叉验证:培训/测试集必须分开吗?

交叉验证:培训/测试集必须分开吗?
EN

Stack Overflow用户
提问于 2020-11-20 15:03:08
回答 1查看 498关注 0票数 0

假设我想使用随机森林模型来预测未来的数据。我正在考虑两种方法来训练这个模型,选择最好的超参数,并将这个模型投入生产。这两种方法的不同之处在于,第一种方法将数据分割成训练和测试集,而第二种方法没有。

这两种方法我都能用吗?其中一种比另一种更好吗?我想第二种方法的一个缺点是,没有公正的性能评估,但这真的重要吗?

1)

model

  • Use
    • 将数据分解为列车和测试集(80/20),
    • 在列车数据集上使用k重交叉验证,
    • 选择在k个验证集上性能最好的超参数。
    • 对完全训练数据的最佳模型

    <代码>H 19得到测试集上的无偏性能评估<代码>H 210<代码>H 111对完整数据集的最佳模型<代码>H 212<代码>H 113使用完整数据集上的最后一个k-折叠交叉验证来预测未来数据。H 222

    • 选择在k验证集上性能最好的超参数。
    • 在完全数据上训练最佳模型
    • 使用最终模型

    预测未来数据

EN

回答 1

Stack Overflow用户

发布于 2020-11-20 15:10:49

交叉验证是k折叠验证的一个具体例子,在这里,k = (1/split_rate) - 1只执行1轮验证。因此,当您已经通过k折叠验证进行优化时,不需要交叉验证。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64931803

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档