首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据分布如何影响模型性能?

数据分布如何影响模型性能?
EN

Data Science用户
提问于 2020-05-25 07:16:58
回答 2查看 1.1K关注 0票数 6

我正在研究房价:高级回归技术数据集。我正在浏览一些内核,注意到许多人将SalePrice转换为log(SalePrice),如下所示:

我可以看到,进行日志转换降低了数据的倾斜度,并使其更加正常。但是,我想知道它是改善我的模型的性能,还是正在使用-在任何方面都是充分的。如果是的话,那么目标变量的正态分布是如何成为催化剂的呢?

EN

回答 2

Data Science用户

回答已采纳

发布于 2020-05-25 09:35:29

问得好。你的解释已经足够了。使用对数函数可以降低目标变量的偏度。这有什么关系?

通过对数函数转换你的目标使你的目标线性化。这对于许多期望线性目标的模型是有用的。学习有一页描述这个现象:https://scikit-learn.org/stable/auto_例子/组成/情节_变身_target.html

要注意到

如果你在训练前修改你的目标,你应该在你的模型的末尾应用逆变换来计算你的“最终”预测。这样,您的性能指标就可以比较。

直观地,假设您有一个非常天真的模型,它返回平均目标,而不考虑输入。如果你的目标是倾斜的,那就意味着你会在大多数预测中忽略/超射。因此,您的错误范围将更大,这将恶化分数,如平均绝对误差或相对误差(MAE/MSE)。通过规范化目标,您可以减少错误的范围,这将最终直接改进您的模型。

票数 6
EN

Data Science用户

发布于 2020-05-25 09:55:21

好吧..。有许多方面可以回答这个问题(就像瓦伦丁的回答 . +1!)作为机器学习和数据挖掘,一般都是关于分布的。我只想提几个我首先想到的。

  • 有些模型假设高斯分布,例如K-均值。假设您想在不进行日志转换的情况下对此数据应用K-方法。K-均值对原始特征有很大的困难,但是log变换使得K-均值更适合于K-均值,因为“平均”更好地代表了高斯分布中的样本,而不是倾斜的样本。
  • 一些统计分析技术也假设是高难度的。ANOVA对正态分布数据(特别是在小样本群体中)的工作效果最好(而且实际上是为其设计的)。究其原因,简单地说,它主要是处理均值和样本方差来确定样本总体的“中心”和“变异”,在高斯分布中意义最大。
  • 总之,带有调整特征的计算比倾斜特征更有鲁棒性。扭曲的功能有不均匀的范围,这是一个问题,特别是如果他们的范围是巨大的(如你的例子)。调整(工程)功能不一定会变成高斯,但有一个更小和更均匀的范围,例如。
票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/74794

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档