首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >CNN模型实现10倍交叉验证的最佳方法

CNN模型实现10倍交叉验证的最佳方法
EN

Data Science用户
提问于 2020-09-09 17:32:33
回答 2查看 942关注 0票数 2

我正在执行一个二进制分类问题与15000 RGB图像使用划痕建设CNN模型。在评估模型时,我可以用两种方法:

  1. 对训练数据进行分割、训练和测试,并对训练数据进行10倍交叉验证.稍后,使用最好的模型,我将使用未见的测试数据。以这种方式我得到了应用程序。平均91.5%。测试和验证的准确性。
  2. 只需使用10倍交叉验证,获得92.5%的平均准确率(略好于以前的结果)。

在这篇研究文章中,哪个选项最适合报告我的模型的性能?提亚

EN

回答 2

Data Science用户

发布于 2020-09-10 07:20:13

在我看来,这应该是一种选择

主要的逻辑是在看不见的数据上测试您的模型。

原因是,

当你执行你的K-折叠,比如说得到一个87%的分数,然后你调整了你的超参数。

通过这种方式,我们实际上将测试数据(K折叠测试集)信息泄漏到学习过程中,最终,如果这种重试多次发生,该过程也会与测试数据相适应。

所以,这个选项-我的分数应该更接近于未来新数据的得分。

票数 2
EN

Data Science用户

发布于 2020-09-09 22:51:32

我仍然不能百分之百地确定这个设置,但是根据OP的评论,我理解没有超参数调优,所以有一种方法是以两种不同的方式训练的。因此,如果我的理解是正确的:

  • 在选项1中,将训练数据用于CV训练/测试,然后选择与最佳CV运行相对应的模型,并将其应用于未见测试集。这将是一个不寻常的方式使用简历,因为通常简历只用于评估,而不是提取其中一个模型。不出所料,模型在看不见的测试数据上的性能低于CV期间的性能,因为CV期间的最大性能很可能是偶然造成的。
  • 选项2只是一个单一模型的常规简历评估,所以我会使用这个结果。

然而,所得结果之间存在不一致之处:如果在选项1中,平均CV精度为91.5,那么在选项2中它是92.5没有逻辑上的理由(有更多的数据,但不太可能提高那么多)。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/81471

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档