我正在建立一个目标变量不平衡的二进制分类模型(13%的1级和87%的0级)。我正在考虑以下三种方法来处理数据不平衡
假设我有足够的可用数据,第一个选择总是最好的方法吗?这三种方法中的每一种都有哪些优点?特别是第二和第三种选择(我认为它总是倾向于避免创建新的合成样品)
发布于 2020-04-14 19:39:37
我认为这主要取决于您的数据集类型!你在处理短信吗?还是图像?或者..。根据我在大多数情况下的经验,您的特性会告诉您哪个选项最适合您的case....but,选项1和2除了取决于您的数据集和功能之外,还需要根据您的模型的高偏差或方差来判断它们的优劣,并且应该告诉您它们是好还是坏!您需要做一些实验来找出它们,或者很好地了解您的数据集,以了解添加或减少数据集是否会影响您的模型性能!
我想告诉大家的是,尝试同时使用过采样和下采样方法,使您的数据集以一种公平的方式(有点)平衡!....in这种情况(87%的0级和13%的类1),....upsample类1和下采样类0!您需要增加多少样本或多少下采样,这都是您对数据集中公平性的选择和定义!这个定义可能不一样!
https://datascience.stackexchange.com/questions/72321
复制相似问题