我想使用XGB回归。dataframe在本质上类似于这个表:
index feature 1 feature 2 feature 3 encoded_1 encoded_2 encoded_3 y
0 0.213 0.542 0.125 0 0 1 0.432
1 0.495 0.114 0.234 1 0 0 0.775
2 0.521 0.323 0.887 1 0 0 0.691我的问题是,对编码特征进行不平衡的观察有什么影响?例如,我有更多将“编码1”组合成“编码2”或"encoded_3“的特性。我只想说清楚,我想用回归而不是分类。
如果有任何关于它的材料,请告诉我。
发布于 2021-11-09 11:51:54
这不重要,只是数据而已。
我假设您正在考虑与“不平衡的数据集”相关的问题,但这个术语仅指目标变量的值不平衡(它更常用于分类,但在技术上也与回归相关)。
特性不需要以任何方式被平衡,它们只需要成为目标变量的好指标。
发布于 2021-11-09 12:40:21
正如Erwan所说,不平衡的数据集问题是关于目标变量,而不是特征。
但是,如果您的模型更倾向于您的回归目标的一部分,您可以对目标变量的分布进行研究,然后根据分布执行转换(例如平方根或exp),以获得更一致的输出。
此外,一个不合适的可能被错误地认为是由于特征不平衡而不是你的特征的代表性。您可以添加新功能,甚至转换当前功能的版本,以捕获数据中的非线性。
https://datascience.stackexchange.com/questions/103965
复制相似问题