问关于在最后培训中列入错误分类数据
EN

Data Science用户

提问于 2021-02-06 17:38:48

回答 1查看 29关注 0票数 2

我发现最好是从交叉验证的角度问我的问题。下面是：

假设一个二进制分类问题，并将交叉验证应用于某一学习算法.假设CV列车误差和CV测试误差均达到90%的准确度，表明了较好的拟合效果。由于这个性能对于我们的问题是可以接受的，所以我们将训练和验证集组合成一个最终的完整数据集，并训练最终的模型。对于最后的数据集，只有训练错误可用，假设在我们的示例中这将是92%。

现在，对于这个问题:知道最终模型已经达到了92%的准确度，在最终数据集中保留8%的错误示例是否有什么用？既然这些例子是无法学习的，那么为什么不删除它们，用仅能学到的92%的数据对最终模型进行再培训呢？

备注

据我所知，在上述例子中，上述8%的去除并不是建模的标准做法。然而，我不知道保留那些没有学到的例子有什么价值。
为了完成，假设还有另一个独立的测试集来评估最终的模型。

supervised-learning

回答 1

Data Science用户

发布于 2021-02-06 22:43:58

既然这些例子是无法学习的，那么为什么不删除它们，用仅能学到的92%的数据对最终模型进行再培训呢？

总的来说，我认为这是个坏主意，原因如下。尽管如此，了解特定数据集的唯一可靠方法是进行实验。

这将修改数据的分布。如果错误往往发生在特定的类或特性的特定组合(这是很可能的)，这些情况将不再被模型所看到。有时，修改发行版可以带来更好的性能(例如，使用重采样时)，但它也会产生相反的效果。因此，这是一个对模型性能影响未知的偏差。
一个更严重的问题是，这些错误情况可能对模型很重要。典型的错误发生在边缘情况下，这些情况对于模型学习分离类的最佳方法来说通常是非常重要的。通过删除它们，模型可能更容易在培训期间分离类，但这不是一件好事，因为它将没有所需的所有信息，以尽量减少错误。因此，它很可能找不到合适的最优，因此会犯更多的错误。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/89031

复制

相似问题

问关于在最后培训中列入错误分类数据
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问关于在最后培训中列入错误分类数据EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问关于在最后培训中列入错误分类数据
EN