文章/答案/技术大牛

发布

社区首页 >问答首页 >如何处理目标偏斜且只有少数高值的回归问题？

问如何处理目标偏斜且只有少数高值的回归问题？
EN

Data Science用户

提问于 2020-08-17 11:34:18

回答 1查看 914关注 0票数 2

我目前正在处理一个带有倾斜目标变量的回归问题(如下所示)。

当然，我的第一个想法是用自然对数变换目标，因为它可能会帮助线性回归或基于决策树的算法。第二种思想是准备一个类似于分层k-折叠交叉验证的验证方案，目标被绑定为n个组。然而，我担心的是，我只有很少的最高价值：

因此，我的测试集和所有验证集错误都是高度依赖的，如果这4个极值中的一个被绘制在其中或不放在其中。这使得很难获得可靠的真实误差估计。

我还能做些什么来处理这个问题吗？

cross-validation

machine-learning

regression

decision-trees

回答 1

Data Science用户

发布于 2020-08-17 19:50:51

您可以通过适当的转换生成对称分布(S)：您的分布主要是右偏的，因此需要log10转换。

您还可以使用自动绑定方法，并将其与峰值的虚拟变量相结合。

如果您然后执行一个特征选择，学习者将自动选择最重要的特征。像XGBoost这样的学习者会自动处理多重共线性。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/80392

复制

相似问题

问如何处理目标偏斜且只有少数高值的回归问题？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何处理目标偏斜且只有少数高值的回归问题？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何处理目标偏斜且只有少数高值的回归问题？
EN