我正在为一个不平衡的数据集做一个二级分类项目。失衡率约为18%/82%。我注意到,当我样本不足的时候,F1评分有了很大的提高;从16%的低采样到49%的低采样。我想知道这是可能的还是我做错了什么?在欠采样之前,我将列车和测试集中的数据分拆,应用异常点检测和归一化(首先在火车集合上标准化,然后使用从火车集合获得的尺度进行测试)。有没有人知道,如果这种改善太好而不是真的,又会有什么问题呢?事先非常感谢!
发布于 2020-01-07 15:17:54
通过再平衡改进评价指标取决于分类器算法的类型。某些算法对速率不平衡非常敏感,因此调整各自的支持水平将改变算法的性能。
一种通过经验验证只有低采样才能推动改进的方法之一是进行一个实验--逐步提高过采样的水平,并在F1评分上绘制结果。
https://datascience.stackexchange.com/questions/66027
复制相似问题