文章/答案/技术大牛

发布

社区首页 >问答首页 >准备数据集少数类与多数类

问准备数据集少数类与多数类
EN

Data Science用户

提问于 2020-08-01 17:46:45

回答 1查看 143关注 0票数 1

我目前正在为情绪预测做二进制分类。目前，我将多数类(数据的90%)作为我的阳性类(标记为1)，少数类(数据的10%)作为我的负类(标记为0)。在这个实验中，我想要最大限度地发现负面情绪，因此我想最大限度地提高我的少数派阶级的精确性(和回忆性)。

然而，在信用卡欺诈检测、癌症检测等许多类似的数据集中(在优先检测少数类方面)，通常将少数类设置为阳性类，多数类设置为阴性类。

我的问题是:是否将少数类别设置为与训练模型或影响损失函数(如交叉熵)的性能有关的正面或负面标签，这是否重要？

machine-learning

classification

class-imbalance

binary

回答 1

Data Science用户

回答已采纳

发布于 2020-08-01 19:41:33

我的问题是:是否将少数类别设置为与训练模型或影响损失函数(如交叉熵)的性能有关的正面或负面标签，这是否重要？

不，不需要。

然而，在二进制分类中，通常把“肯定”称为主要的兴趣类别，所以当你向别人介绍你的结果时，要注意清楚哪一类是积极的/消极的。

同样要注意的是，精度和回忆通常是为任何所谓的正类计算的，所以不要在不经意间使用多数类的结果，而不是您感兴趣的结果。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/79640

复制

相似问题

问准备数据集少数类与多数类
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问准备数据集少数类与多数类EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问准备数据集少数类与多数类
EN