与更简单的列车测试拆分相比,我试图理解进行嵌套交叉验证的主要好处。让我们说,我想建立一个预测模型。我最初将我的数据分成两部分,其中80%用于培训,其余20%用于测试。然后,我在80%上运行CV对超参数进行调优,最后使用测试样本上的最优超参数来运行模型,从而得到对我的模型性能的无偏估计。
现在,我的理解是嵌套-简历有两个主要好处:
我是不是遗漏了什么?从实际的角度来看,假设一个足够大的数据库,与一个简单的火车测试分割相比,增加嵌套CV的计算复杂性真的能带来很大的好处吗?
非常感谢。
发布于 2021-07-13 18:43:20
你已经涵盖了主要的好处。但是,重要的是要指出,更稳定的方法特别包括不依赖于如何分割数据的好处。通过持久化验证,您的测试集的分布可能与您的培训集不同,从而违反了具有来自同一分布的培训和测试数据的关键假设,以便获得模型性能的无偏见估计。
当数据量有限时,这更有可能成为一个问题。因此,当您有一个非常大的数据集(并且您的模型需要很长的时间来训练)时,通常会应用坚持验证(即k折叠简历用于验证,而保留简历用于测试)。对于训练成本很高的模型(比如神经网络经常是这样),即使只对中等大小的数据集(例如,中等大小的数据以大概数字的形式引用200k数据点),也经常应用保留验证。
https://datascience.stackexchange.com/questions/97825
复制相似问题