首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何处理目标偏斜且只有少数高值的回归问题?

如何处理目标偏斜且只有少数高值的回归问题?
EN

Data Science用户
提问于 2020-08-17 11:34:18
回答 1查看 914关注 0票数 2

我目前正在处理一个带有倾斜目标变量的回归问题(如下所示)。

当然,我的第一个想法是用自然对数变换目标,因为它可能会帮助线性回归或基于决策树的算法。第二种思想是准备一个类似于分层k-折叠交叉验证的验证方案,目标被绑定为n个组。然而,我担心的是,我只有很少的最高价值:

因此,我的测试集和所有验证集错误都是高度依赖的,如果这4个极值中的一个被绘制在其中或不放在其中。这使得很难获得可靠的真实误差估计。

我还能做些什么来处理这个问题吗?

EN

回答 1

Data Science用户

发布于 2020-08-17 19:50:51

您可以通过适当的转换生成对称分布(S):您的分布主要是右偏的,因此需要log10转换。

您还可以使用自动绑定方法,并将其与峰值的虚拟变量相结合。

如果您然后执行一个特征选择,学习者将自动选择最重要的特征。像XGBoost这样的学习者会自动处理多重共线性。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/80392

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档