首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >演示过度拟合或欠拟合的理想算法

演示过度拟合或欠拟合的理想算法
EN

Data Science用户
提问于 2021-05-07 17:40:38
回答 2查看 78关注 0票数 1

当一个人试图查找概念,如过度拟合和欠拟合,最常见的东西弹出是多项式回归。为什么经常使用多项式回归来演示这些概念?这仅仅是因为它可以很容易地像这里的图表一样可视化吗?

https://scikit-learn.org/stable/auto_实例/模型_选择/地块_下装_overfitting.html

但是,大多数的ml算法,如k均值聚类算法也可以使用。那么为什么通常只进行多项式回归呢?还有其他类似的算法可以使用吗?

EN

回答 2

Data Science用户

回答已采纳

发布于 2021-05-08 13:22:54

线性代数告诉我们,N个线性无关向量跨越了所有N维空间。在回归设置中,这转化为这样一个事实:如果每个观测有N个观测和N个特征,那么您的回归模型就很有可能对NxN训练数据达到100 %的准确性。如果NxN特征集主要由噪声组成,那么你的机会就更大了,因为N个随机生成的N维向量是线性无关的。

由于该模型对数据中的随机噪声具有较好的拟合能力,所以在列车上具有较高的精度。这类模型在样本外测试集上几乎没有得到很好的推广。

因此,在多项式回归中发生的事情是,当你添加更新的特性时,它们可能会增加更多的噪声(潜在无用的信息),但是非常能够被模型用来解释火车集合中的方差,但在测试集上却从来没有。

这就是为什么它是理想的选择,因为它允许您从现有的特性中轻松地添加更新的功能,并在一组火车上演示过度。

票数 1
EN

Data Science用户

发布于 2021-05-08 12:11:24

可以使用的另一个例子是决策树分类问题中的分离边界。在下面的图片中,您可以看到,随着max_depth的增加,训练错误继续下降(越低越好),而测试错误却不是那么好。这是因为模型根据训练数据将特定的粉红色区域(X)作为分离边界。当这些边界被应用到另一组数据时,它们就变成了差的分离边界。因此,这些边界不能推广到其他测试数据集。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/94146

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档