我目前正在处理一个带有倾斜目标变量的回归问题(如下所示)。

当然,我的第一个想法是用自然对数变换目标,因为它可能会帮助线性回归或基于决策树的算法。第二种思想是准备一个类似于分层k-折叠交叉验证的验证方案,目标被绑定为n个组。然而,我担心的是,我只有很少的最高价值:

因此,我的测试集和所有验证集错误都是高度依赖的,如果这4个极值中的一个被绘制在其中或不放在其中。这使得很难获得可靠的真实误差估计。
我还能做些什么来处理这个问题吗?
发布于 2020-08-17 19:50:51
您可以通过适当的转换生成对称分布(S):您的分布主要是右偏的,因此需要log10转换。
您还可以使用自动绑定方法,并将其与峰值的虚拟变量相结合。
如果您然后执行一个特征选择,学习者将自动选择最重要的特征。像XGBoost这样的学习者会自动处理多重共线性。
https://datascience.stackexchange.com/questions/80392
复制相似问题