我有一个想法,把过度抽样和低采样结合起来,方法如下:
计算每个类中的平均个体数。对于个体数大于此平均值的类,对类进行抽样,使该类中的个体数等于平均值。对于个体数低于此平均值的类,对类进行过抽样,使该类中的个体数等于平均值。总的来说,所有类都有若干个人与原来的平均数相等。
但是,我看不出任何关于这个想法的文献。这个想法存在吗?它是否有一个名字,让我可以读到它?
发布于 2020-05-12 00:34:52
它被称为重采样,并以处理不平衡的数据集而闻名。例如,请参见实现的https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets。
恭喜你有好直觉!
https://datascience.stackexchange.com/questions/73995
复制相似问题