我目前正在为情绪预测做二进制分类。目前,我将多数类(数据的90%)作为我的阳性类(标记为1),少数类(数据的10%)作为我的负类(标记为0)。在这个实验中,我想要最大限度地发现负面情绪,因此我想最大限度地提高我的少数派阶级的精确性(和回忆性)。
然而,在信用卡欺诈检测、癌症检测等许多类似的数据集中(在优先检测少数类方面),通常将少数类设置为阳性类,多数类设置为阴性类。
我的问题是:是否将少数类别设置为与训练模型或影响损失函数(如交叉熵)的性能有关的正面或负面标签,这是否重要?
发布于 2020-08-01 19:41:33
我的问题是:是否将少数类别设置为与训练模型或影响损失函数(如交叉熵)的性能有关的正面或负面标签,这是否重要?
不,不需要。
然而,在二进制分类中,通常把“肯定”称为主要的兴趣类别,所以当你向别人介绍你的结果时,要注意清楚哪一类是积极的/消极的。
同样要注意的是,精度和回忆通常是为任何所谓的正类计算的,所以不要在不经意间使用多数类的结果,而不是您感兴趣的结果。
https://datascience.stackexchange.com/questions/79640
复制相似问题