我正在训练一个使用400个数据集样本的集成模型,这导致了一个看起来像楼梯的精确回忆曲线?除了样本数量较少外,还有什么原因?
发布于 2020-12-17 15:17:08
精确召回曲线(以及ROC曲线)是由不同的阈值组成的,可用于区分正实例和负实例之间的预测。这些阈值自然取决于分类器预测的可能值。
例如,如果分类器只预测3个不同的值a<b<c,那么阈值t只能位于以下位置:
这些位置中的每一个都对应于一对精确和回忆的值,因此在曲线中正好有一个点。因此,曲线的形状(它是否平滑)取决于分类器预测了多少不同的值。
因此,阶梯型曲线表明,分类器只能预测几个不同的值。这有很多原因,但既然你提到了集成学习,我想最终的预测值是基于个别学习者预测正面班级的比例,对吧?如果是的话,这就解释了:如果有N个人学习者,那么最终的预测值只能是0,1/N,2/N,...,N。这意味着N+1不同值的最大值,因此是曲线上N+1点的最大值。
https://datascience.stackexchange.com/questions/86830
复制相似问题