我正在研究房价:高级回归技术数据集。我正在浏览一些内核,注意到许多人将SalePrice转换为log(SalePrice),如下所示:


我可以看到,进行日志转换降低了数据的倾斜度,并使其更加正常。但是,我想知道它是改善我的模型的性能,还是正在使用-在任何方面都是充分的。如果是的话,那么目标变量的正态分布是如何成为催化剂的呢?
发布于 2020-05-25 09:35:29
问得好。你的解释已经足够了。使用对数函数可以降低目标变量的偏度。这有什么关系?
通过对数函数转换你的目标使你的目标线性化。这对于许多期望线性目标的模型是有用的。学习有一页描述这个现象:https://scikit-learn.org/stable/auto_例子/组成/情节_变身_target.html
如果你在训练前修改你的目标,你应该在你的模型的末尾应用逆变换来计算你的“最终”预测。这样,您的性能指标就可以比较。
直观地,假设您有一个非常天真的模型,它返回平均目标,而不考虑输入。如果你的目标是倾斜的,那就意味着你会在大多数预测中忽略/超射。因此,您的错误范围将更大,这将恶化分数,如平均绝对误差或相对误差(MAE/MSE)。通过规范化目标,您可以减少错误的范围,这将最终直接改进您的模型。
发布于 2020-05-25 09:55:21
好吧..。有许多方面可以回答这个问题(就像瓦伦丁的回答 . +1!)作为机器学习和数据挖掘,一般都是关于分布的。我只想提几个我首先想到的。
https://datascience.stackexchange.com/questions/74794
复制相似问题