我理解k的精确性和k的回忆性。当正数类被负数类压倒性地压倒时,它是评价二进制分类器成功与否的一个更有用的指标。
我想知道如何选择合适的"k“值。根据这这样的资源,在"k“处的召回是以正示例的数量为界的,因此在评估严重不平衡的类的成功时,它不是一个有用的度量。
对我来说也是这样: K的精度也受到K的正例子数的限制,我们一共有100个例子,只有3个是正例子。如果我们给这些
场景1:我们选择k=10,那么,K的精度最多可以是3/10 = 0.3。而且,k的召回量将是0.03,因为在整个数据集100中有3。
场景2:我们选择k=3,那么,K的精度是3/3 = 1.0!,k的召回率仍然是3/100 = 0.03。
即使我们的二进制分类器性能很好,但它的完美性能只在我们选择k=3时才能反映出来。
那么,我的问题是如何正确选择K?
发布于 2017-06-14 21:50:43
精确性和召回有时是令人怀疑的。这取决于中华民国曲线上的点。因此,根据你的需要选择要点。最好的方法是提供更多关于您的结果的信息,即准确性度量和混淆矩阵。
发布于 2022-10-26 14:43:52
如果您所有的顶级num_positive术语都是正类,那么对于所有k,您的精度@k应该是1.0。
分母应该是min(num_positive,num_looked_at),而不是num_looked_at。
https://datascience.stackexchange.com/questions/19726
复制相似问题