文章/答案/技术大牛

发布

社区首页 >问答首页 >数据分布如何影响模型性能？

问数据分布如何影响模型性能？
EN

Data Science用户

提问于 2020-05-25 07:16:58

回答 2查看 1.1K关注 0票数 6

我正在研究房价:高级回归技术数据集。我正在浏览一些内核，注意到许多人将SalePrice转换为log(SalePrice)，如下所示：

我可以看到，进行日志转换降低了数据的倾斜度，并使其更加正常。但是，我想知道它是改善我的模型的性能，还是正在使用-在任何方面都是充分的。如果是的话，那么目标变量的正态分布是如何成为催化剂的呢？

machine-learning

statistics

preprocessing

回答 2

Data Science用户

回答已采纳

发布于 2020-05-25 09:35:29

问得好。你的解释已经足够了。使用对数函数可以降低目标变量的偏度。这有什么关系？

通过对数函数转换你的目标使你的目标线性化。这对于许多期望线性目标的模型是有用的。学习有一页描述这个现象：https://scikit-learn.org/stable/auto_例子/组成/情节_变身_target.html

要注意到

如果你在训练前修改你的目标，你应该在你的模型的末尾应用逆变换来计算你的“最终”预测。这样，您的性能指标就可以比较。

直观地，假设您有一个非常天真的模型，它返回平均目标，而不考虑输入。如果你的目标是倾斜的，那就意味着你会在大多数预测中忽略/超射。因此，您的错误范围将更大，这将恶化分数，如平均绝对误差或相对误差(MAE/MSE)。通过规范化目标，您可以减少错误的范围，这将最终直接改进您的模型。

票数 6

Data Science用户

发布于 2020-05-25 09:55:21

好吧..。有许多方面可以回答这个问题(就像瓦伦丁的回答 . +1!)作为机器学习和数据挖掘，一般都是关于分布的。我只想提几个我首先想到的。

有些模型假设高斯分布，例如K-均值。假设您想在不进行日志转换的情况下对此数据应用K-方法。K-均值对原始特征有很大的困难，但是log变换使得K-均值更适合于K-均值，因为“平均”更好地代表了高斯分布中的样本，而不是倾斜的样本。
一些统计分析技术也假设是高难度的。ANOVA对正态分布数据(特别是在小样本群体中)的工作效果最好(而且实际上是为其设计的)。究其原因，简单地说，它主要是处理均值和样本方差来确定样本总体的“中心”和“变异”，在高斯分布中意义最大。
总之，带有调整特征的计算比倾斜特征更有鲁棒性。扭曲的功能有不均匀的范围，这是一个问题，特别是如果他们的范围是巨大的(如你的例子)。调整(工程)功能不一定会变成高斯，但有一个更小和更均匀的范围，例如。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/74794

复制

相似问题

问数据分布如何影响模型性能？
EN

回答 2

Data Science用户

要注意到

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据分布如何影响模型性能？EN

回答 2

Data Science用户

要注意到

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据分布如何影响模型性能？
EN