首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >关于在最后培训中列入错误分类数据

关于在最后培训中列入错误分类数据
EN

Data Science用户
提问于 2021-02-06 17:38:48
回答 1查看 29关注 0票数 2

我发现最好是从交叉验证的角度问我的问题。下面是:

假设一个二进制分类问题,并将交叉验证应用于某一学习算法.假设CV列车误差和CV测试误差均达到90%的准确度,表明了较好的拟合效果。由于这个性能对于我们的问题是可以接受的,所以我们将训练和验证集组合成一个最终的完整数据集,并训练最终的模型。对于最后的数据集,只有训练错误可用,假设在我们的示例中这将是92%。

现在,对于这个问题:知道最终模型已经达到了92%的准确度,在最终数据集中保留8%的错误示例是否有什么用?既然这些例子是无法学习的,那么为什么不删除它们,用仅能学到的92%的数据对最终模型进行再培训呢?

备注

  • 据我所知,在上述例子中,上述8%的去除并不是建模的标准做法。然而,我不知道保留那些没有学到的例子有什么价值。
  • 为了完成,假设还有另一个独立的测试集来评估最终的模型。
EN

回答 1

Data Science用户

发布于 2021-02-06 22:43:58

既然这些例子是无法学习的,那么为什么不删除它们,用仅能学到的92%的数据对最终模型进行再培训呢?

总的来说,我认为这是个坏主意,原因如下。尽管如此,了解特定数据集的唯一可靠方法是进行实验。

  • 这将修改数据的分布。如果错误往往发生在特定的类或特性的特定组合(这是很可能的),这些情况将不再被模型所看到。有时,修改发行版可以带来更好的性能(例如,使用重采样时),但它也会产生相反的效果。因此,这是一个对模型性能影响未知的偏差。
  • 一个更严重的问题是,这些错误情况可能对模型很重要。典型的错误发生在边缘情况下,这些情况对于模型学习分离类的最佳方法来说通常是非常重要的。通过删除它们,模型可能更容易在培训期间分离类,但这不是一件好事,因为它将没有所需的所有信息,以尽量减少错误。因此,它很可能找不到合适的最优,因此会犯更多的错误。
票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/89031

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档