首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >不平衡特征对预测的影响

不平衡特征对预测的影响
EN

Data Science用户
提问于 2021-11-09 09:22:26
回答 2查看 211关注 0票数 2

我想使用XGB回归。dataframe在本质上类似于这个表:

代码语言:javascript
复制
index    feature 1   feature 2   feature 3  encoded_1  encoded_2  encoded_3   y
0          0.213      0.542       0.125       0             0        1        0.432
1          0.495      0.114       0.234       1             0        0        0.775
2          0.521      0.323       0.887       1             0        0        0.691

我的问题是,对编码特征进行不平衡的观察有什么影响?例如,我有更多将“编码1”组合成“编码2”或"encoded_3“的特性。我只想说清楚,我想用回归而不是分类。

如果有任何关于它的材料,请告诉我。

EN

回答 2

Data Science用户

回答已采纳

发布于 2021-11-09 11:51:54

这不重要,只是数据而已。

我假设您正在考虑与“不平衡的数据集”相关的问题,但这个术语仅指目标变量的值不平衡(它更常用于分类,但在技术上也与回归相关)。

特性不需要以任何方式被平衡,它们只需要成为目标变量的好指标。

票数 5
EN

Data Science用户

发布于 2021-11-09 12:40:21

正如Erwan所说,不平衡的数据集问题是关于目标变量,而不是特征。

但是,如果您的模型更倾向于您的回归目标的一部分,您可以对目标变量的分布进行研究,然后根据分布执行转换(例如平方根或exp),以获得更一致的输出。

此外,一个不合适的可能被错误地认为是由于特征不平衡而不是你的特征的代表性。您可以添加新功能,甚至转换当前功能的版本,以捕获数据中的非线性。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/103965

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档