首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >嵌套交叉验证与列车测试拆分

嵌套交叉验证与列车测试拆分
EN

Data Science用户
提问于 2021-07-13 17:37:42
回答 1查看 376关注 0票数 -1

与更简单的列车测试拆分相比,我试图理解进行嵌套交叉验证的主要好处。让我们说,我想建立一个预测模型。我最初将我的数据分成两部分,其中80%用于培训,其余20%用于测试。然后,我在80%上运行CV对超参数进行调优,最后使用测试样本上的最优超参数来运行模型,从而得到对我的模型性能的无偏估计。

现在,我的理解是嵌套-简历有两个主要好处:

  1. 您可以使用所有的数据作为培训过程的一部分(这样内部的简历就可以在某个时候看到所有的数据)。
  2. 您获得的模型性能估计可能更稳定(也就是说,它不是基于使用测试数据的单个运行,而是基于多次运行)。

我是不是遗漏了什么?从实际的角度来看,假设一个足够大的数据库,与一个简单的火车测试分割相比,增加嵌套CV的计算复杂性真的能带来很大的好处吗?

非常感谢。

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-07-13 18:43:20

  1. 您可以使用所有的数据作为培训过程的一部分(这样内部的简历就可以在某个时候看到所有的数据)。
  2. 您获得的模型性能估计可能更稳定(也就是说,它不是基于使用测试数据的单个运行,而是基于多次运行)。

你已经涵盖了主要的好处。但是,重要的是要指出,更稳定的方法特别包括不依赖于如何分割数据的好处。通过持久化验证,您的测试集的分布可能与您的培训集不同,从而违反了具有来自同一分布的培训和测试数据的关键假设,以便获得模型性能的无偏见估计。

当数据量有限时,这更有可能成为一个问题。因此,当您有一个非常大的数据集(并且您的模型需要很长的时间来训练)时,通常会应用坚持验证(即k折叠简历用于验证,而保留简历用于测试)。对于训练成本很高的模型(比如神经网络经常是这样),即使只对中等大小的数据集(例如,中等大小的数据以大概数字的形式引用200k数据点),也经常应用保留验证。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/97825

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档