我在R.中使用tidymodel软件包对三个类进行分类。共有约8000个样本和130个特征。这就是中华民国曲线的样子。

对所有三个类的预测实际上都很好,与预期相吻合。这些错误分类的样本也很容易解释。下面是测试数据软件给出的一些度量标准:
.metric .estimate
1 accuracy 0.887
2 bal_accuracy 0.917
3 f_meas 0.887
4 kap 0.831
5 mcc 0.835
6 precision 0.895
7 recall 0.889
8 roc_auc 0.975以及混乱矩阵。
Truth
Prediction A B C
A 573 19 22
B 6 662 17
C 148 25 628一切似乎都很好,除了奇怪的中华民国曲线。我想找个解释。
发布于 2022-09-21 19:48:01
如果预测或黄金标签(但不是两者都)被逆转,这种情况就会发生。例如,被预测为正的实例被我们的函数解释为否定的,反之亦然。这从对角线给出了真实曲线的精确镜像,使它看起来好像分类器做的比随机的差。您肯定在某个地方有一个bug,可能是一些逆转类的隐式类型转换吗?(R有时会做一些不直观的事情!)
另外,第三条曲线看起来很好,这可能对你有帮助:前两条曲线和这条曲线之间的代码一定有区别。
发布于 2023-02-13 02:28:54
ROC曲线的倒置可能是由yardstick's假设事件由第一个因素级别指示的。设置以下选项提供了一个解决方案:
options(yardstick.event_first = FALSE)
rf_training_pred %>%
roc_curve(truth=Species,.pred_setosa,.pred_versicolor,.pred_virginica) %>%
autoplot(rf_training_roc)或者,可以将event_level函数中的roc_curve参数设置为“第二次”。
https://datascience.stackexchange.com/questions/114594
复制相似问题