文章/答案/技术大牛

发布

社区首页 >问答首页 >嵌套交叉验证与列车测试拆分

问嵌套交叉验证与列车测试拆分
EN

Data Science用户

提问于 2021-07-13 17:37:42

回答 1查看 376关注 0票数 -1

与更简单的列车测试拆分相比，我试图理解进行嵌套交叉验证的主要好处。让我们说，我想建立一个预测模型。我最初将我的数据分成两部分，其中80%用于培训，其余20%用于测试。然后，我在80%上运行CV对超参数进行调优，最后使用测试样本上的最优超参数来运行模型，从而得到对我的模型性能的无偏估计。

现在，我的理解是嵌套-简历有两个主要好处：

您可以使用所有的数据作为培训过程的一部分(这样内部的简历就可以在某个时候看到所有的数据)。
您获得的模型性能估计可能更稳定(也就是说，它不是基于使用测试数据的单个运行，而是基于多次运行)。

我是不是遗漏了什么？从实际的角度来看，假设一个足够大的数据库，与一个简单的火车测试分割相比，增加嵌套CV的计算复杂性真的能带来很大的好处吗？

非常感谢。

machine-learning-model

cross-validation

performance

machine-learning

xgboost

回答 1

Data Science用户

回答已采纳

发布于 2021-07-13 18:43:20

您可以使用所有的数据作为培训过程的一部分(这样内部的简历就可以在某个时候看到所有的数据)。
您获得的模型性能估计可能更稳定(也就是说，它不是基于使用测试数据的单个运行，而是基于多次运行)。

你已经涵盖了主要的好处。但是，重要的是要指出，更稳定的方法特别包括不依赖于如何分割数据的好处。通过持久化验证，您的测试集的分布可能与您的培训集不同，从而违反了具有来自同一分布的培训和测试数据的关键假设，以便获得模型性能的无偏见估计。

当数据量有限时，这更有可能成为一个问题。因此，当您有一个非常大的数据集(并且您的模型需要很长的时间来训练)时，通常会应用坚持验证(即k折叠简历用于验证，而保留简历用于测试)。对于训练成本很高的模型(比如神经网络经常是这样)，即使只对中等大小的数据集(例如，中等大小的数据以大概数字的形式引用200k数据点)，也经常应用保留验证。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/97825

复制

相似问题

问嵌套交叉验证与列车测试拆分
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问嵌套交叉验证与列车测试拆分EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问嵌套交叉验证与列车测试拆分
EN