首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >准备数据集少数类与多数类

准备数据集少数类与多数类
EN

Data Science用户
提问于 2020-08-01 17:46:45
回答 1查看 143关注 0票数 1

我目前正在为情绪预测做二进制分类。目前,我将多数类(数据的90%)作为我的阳性类(标记为1),少数类(数据的10%)作为我的负类(标记为0)。在这个实验中,我想要最大限度地发现负面情绪,因此我想最大限度地提高我的少数派阶级的精确性(和回忆性)。

然而,在信用卡欺诈检测、癌症检测等许多类似的数据集中(在优先检测少数类方面),通常将少数类设置为阳性类,多数类设置为阴性类。

我的问题是:是否将少数类别设置为与训练模型或影响损失函数(如交叉熵)的性能有关的正面或负面标签,这是否重要?

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-08-01 19:41:33

我的问题是:是否将少数类别设置为与训练模型或影响损失函数(如交叉熵)的性能有关的正面或负面标签,这是否重要?

不,不需要。

然而,在二进制分类中,通常把“肯定”称为主要的兴趣类别,所以当你向别人介绍你的结果时,要注意清楚哪一类是积极的/消极的。

同样要注意的是,精度和回忆通常是为任何所谓的正类计算的,所以不要在不经意间使用多数类的结果,而不是您感兴趣的结果。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/79640

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档