在对数据进行预处理之后,比如缺失值替换和异常值检测,我使用随机和删除百分比过滤器使用WEKA对我的数据进行了分区。我的数据集是一个高度倾斜的数据集,其不平衡比例为6:1,对应于负类和正类。如果使用朴素贝叶斯分类器对数据进行分类,而不处理类不平衡问题,则查全率为0.623,准确率为83%。然而,如果我用监督的-instances -重采样或监督的-instances -电子样本过滤器来处理类不平衡(在平衡1:1之后),然后应用朴素贝叶斯进行分类精度降低77%,召回率为0.456。
我不明白为什么当处理等级不平衡比率时,准确度会下降?
谢谢。
发布于 2022-06-22 21:37:30
如果你有6:1的阶级不平衡,那么多数阶级是6/7 = 85.7%。仅仅通过预测大多数类(例如使用ZeroR),您就可以得到比NaiveBayes所取得的更好的准确性。
平衡数据集后,NaiveBayes报告77%的准确性,这大大高于预测多数类的50%。
从某种意义上说,NaiveBayes实际上已经有所改进。
https://stackoverflow.com/questions/72715345
复制相似问题