全,
我正在训练光梯度增强,并使用了所有必要的参数来帮助过度适应。我从模型(使用校准分类器校准后)绘制预测概率(即概率有癌症)分布,即它们的直方图或kde。从下面你可以看到,我一班的概率集中在上端和下端。
我试着和乐队玩得太好了,这一点也不太平滑。你觉得这显示了我的模特什么?第1类(有癌症)的模型为这个类分配了更大的概率,这不是件好事吗?
我不知道该如何解释这件事,也不知道我可能出了什么差错。

红色曲线为正类(有癌症),蓝色曲线为未。下面是用来生成的图形。
results = df[['label','predicted_prob']]
colors = ['b', 'r']
for label in [0, 1]:
results[results['label'] == label]['predicted_prob'].plot.kde(bw_method=0.35,color=colors[label])
plt.xlim(0,1)发布于 2020-07-24 18:20:00
这样的情节并不能告诉你过多的事。
首先,检查您的校准是否正常;可能是不正确的校准将概率推向了极致。否则,概率的分布是如此极端,这意味着数据自然地被分离成一段容易被发现的癌症和其他的癌症。在后一种情况下,你似乎得到了相当好的,但不是很好的排名排序的案例。
https://datascience.stackexchange.com/questions/78277
复制相似问题