我发现最好是从交叉验证的角度问我的问题。下面是:
假设一个二进制分类问题,并将交叉验证应用于某一学习算法.假设CV列车误差和CV测试误差均达到90%的准确度,表明了较好的拟合效果。由于这个性能对于我们的问题是可以接受的,所以我们将训练和验证集组合成一个最终的完整数据集,并训练最终的模型。对于最后的数据集,只有训练错误可用,假设在我们的示例中这将是92%。
现在,对于这个问题:知道最终模型已经达到了92%的准确度,在最终数据集中保留8%的错误示例是否有什么用?既然这些例子是无法学习的,那么为什么不删除它们,用仅能学到的92%的数据对最终模型进行再培训呢?
备注
发布于 2021-02-06 22:43:58
既然这些例子是无法学习的,那么为什么不删除它们,用仅能学到的92%的数据对最终模型进行再培训呢?
总的来说,我认为这是个坏主意,原因如下。尽管如此,了解特定数据集的唯一可靠方法是进行实验。
https://datascience.stackexchange.com/questions/89031
复制相似问题