首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >不平衡数据的首选方法

不平衡数据的首选方法
EN

Data Science用户
提问于 2020-04-14 17:44:31
回答 1查看 169关注 0票数 1

我正在建立一个目标变量不平衡的二进制分类模型(13%的1级和87%的0级)。我正在考虑以下三种方法来处理数据不平衡

  1. Option1:创建一个平衡的训练数据集,其中目标变量的分割率为50% / 50%。
  2. 备选方案2:将数据集采样为-is(即87% / 13%拆分),并使用过采样方法(例如SMOTE)将目标变量平衡为50% / 50%拆分。
  3. 选项3:使用具有适当超参数的学习方法来解释数据不平衡的原因,例如: scale_pos_weight in XGBoost,class_weight in LGBMRegressor,class_weight in RandomForestClassifier

假设我有足够的可用数据,第一个选择总是最好的方法吗?这三种方法中的每一种都有哪些优点?特别是第二和第三种选择(我认为它总是倾向于避免创建新的合成样品)

EN

回答 1

Data Science用户

发布于 2020-04-14 19:39:37

我认为这主要取决于您的数据集类型!你在处理短信吗?还是图像?或者..。根据我在大多数情况下的经验,您的特性会告诉您哪个选项最适合您的case....but,选项1和2除了取决于您的数据集和功能之外,还需要根据您的模型的高偏差或方差来判断它们的优劣,并且应该告诉您它们是好还是坏!您需要做一些实验来找出它们,或者很好地了解您的数据集,以了解添加或减少数据集是否会影响您的模型性能!

我想告诉大家的是,尝试同时使用过采样和下采样方法,使您的数据集以一种公平的方式(有点)平衡!....in这种情况(87%的0级和13%的类1),....upsample类1和下采样类0!您需要增加多少样本或多少下采样,这都是您对数据集中公平性的选择和定义!这个定义可能不一样!

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/72321

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档