文章/答案/技术大牛

发布

社区首页 >问答首页 >不平衡数据的首选方法

问不平衡数据的首选方法
EN

Data Science用户

提问于 2020-04-14 17:44:31

回答 1查看 169关注 0票数 1

我正在建立一个目标变量不平衡的二进制分类模型(13%的1级和87%的0级)。我正在考虑以下三种方法来处理数据不平衡

Option1:创建一个平衡的训练数据集，其中目标变量的分割率为50% / 50%。
备选方案2:将数据集采样为-is(即87% / 13%拆分)，并使用过采样方法(例如SMOTE)将目标变量平衡为50% / 50%拆分。
选项3:使用具有适当超参数的学习方法来解释数据不平衡的原因，例如: scale_pos_weight in XGBoost，class_weight in LGBMRegressor，class_weight in RandomForestClassifier

假设我有足够的可用数据，第一个选择总是最好的方法吗？这三种方法中的每一种都有哪些优点？特别是第二和第三种选择(我认为它总是倾向于避免创建新的合成样品)

class-imbalance

smote

imbalanced-learn

classification

回答 1

Data Science用户

发布于 2020-04-14 19:39:37

我认为这主要取决于您的数据集类型！你在处理短信吗？还是图像？或者..。根据我在大多数情况下的经验，您的特性会告诉您哪个选项最适合您的case....but，选项1和2除了取决于您的数据集和功能之外，还需要根据您的模型的高偏差或方差来判断它们的优劣，并且应该告诉您它们是好还是坏！您需要做一些实验来找出它们，或者很好地了解您的数据集，以了解添加或减少数据集是否会影响您的模型性能！

我想告诉大家的是，尝试同时使用过采样和下采样方法，使您的数据集以一种公平的方式(有点)平衡！....in这种情况(87%的0级和13%的类1)，....upsample类1和下采样类0！您需要增加多少样本或多少下采样，这都是您对数据集中公平性的选择和定义！这个定义可能不一样！

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/72321

复制

相似问题

问不平衡数据的首选方法
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不平衡数据的首选方法EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问不平衡数据的首选方法
EN