我在研究一个疾病二元分类问题。
0=健康,1=不健康
这种疾病是一种运动障碍,它出现在病人移动特定运动的时候。我申请了休假一次交叉验证来训练所有的病人,除了一名要测试等等。
问题是,一些病人在他们的数据集中根本不健康。因此,评估指标F1评分,精确和召回急剧下降,因为这些病人。
我尝试使用过采样,但它没有工作,因为它将产生新的样本,从其他病人的数据。此外,我尝试了类权重,但它也没有起作用,因为在测试集中没有一个小类来赋予它更高的优先级。
我该如何解决这个问题?
发布于 2021-03-29 12:11:26
您可以尝试汇集:“池”,将来自每一轮测试的所有预测集合在一起,并在这些集合预测之上计算一次度量。
基本上,您可以为每个测试集保留一个预测和真值的列表。然后,在对每个病人进行测试后,将所有的预测和真值组合在一起,并在最后生成一个包含所有患者的合并预测和真值的混淆矩阵。
然后你就能计算出精确性、召回性和精确性
发布于 2020-09-01 21:40:46
给交叉验证或引导一个尝试!此外,对于度量标准,请查看每个类的性能和宏的平均值。
发布于 2021-09-18 08:21:40
试着用分层法来看问题是否解决了。分割时,将分层参数添加为train_test_split(x, y, test_size = 0.2, random_state = 69, startify = y)。
https://datascience.stackexchange.com/questions/81090
复制相似问题