首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏讲编程的高老师

    权衡查准率和召回率

    上一节讲了当遇到偏斜类的时候,如何对算法效果进行评价,使用查准率和召回率。在很多实际应用中,我们还希望能在查准率和召回率间进行权衡,使得两个指标都取得不错的结果。 权衡查准率和召回率的例子 还是用逻辑回归来进行癌症分类的例子,如下图。图中右上角框起来的是上节讲的“查准率”和“召回率”的定义公式,忘了的可以翻翻上一节的内容。 ? 我们就搞两个模型,一个是高查准率、低召回率的;一个是高召回率、低查准率的。 ? 对于大多数回归模型,你更改这个临界值(threshold)会改变查准率、召回率。 一种办法,算查准率P和召回率R的均值,如下图。 而到底怎样的查准率、召回率的取值比较好,可以使用F1值进行权衡。 又或者,可以同时两个模型并存:(1)高查准率、低召回率;(2)高召回率,低查准率

    95130发布于 2021-05-13
  • 来自专栏决胜机器学习

    机器学习(十三) ——交叉验证、查准率与召回率

    机器学习(十三)——交叉验证、查准率与召回率 (原创内容,转载请注明来源,谢谢) 一、样本集使用方案 1、测试集 为了验证系统设计的是否准确,通常需要预留10%-20%的样本集,作为测试集,校验模型的准确率 为了弥补这个情况,则引入查准率和召回率的概念。 2、查准率 查准率,表示的是真正例占所有预测结果是正例的比例,即查准率=TP/(TP+FP),其衡量的是算法的正确性。 4、关系 查准率和召回率关系如下图所示: ? 当一个算法的查准率很高,通常召回率就较低;反之亦然。考虑到logistic回归算法中,目前采用的是h(x)>=0.5时,认为y=1。 这时候的系统非常的“大胆”,只要有一丝的可能,其都认为结果是1,虽然0.1离1还差了10倍。

    2.8K30发布于 2018-03-07
  • 来自专栏深度学习自然语言处理

    详谈P(查准率),R(查全率),F1值

    比如我们的香蕉中 1 表示好的,0表示坏的,有10个香蕉: gold : [ 1,1,1,1,1,0,0,0,0,0 ] pred: [ 1,0,1,1,1,1,1,0,0,0 ] 注释:gold P(Precision) 查准率:就是上面说的"准"。字面意思好理解呀,就是在预测当中查找准确个数的比例。 真正预测准确的数量/所有真正好的数量 = 4 / 5 F值是: F(k) = ( 1 + k ) * P * R / ( ( k*k ) * P + R ) 注释:k>0 度量了 查全率 对 查准率 k>1查全率有更大影响;k<1查准率有更大影响。 在这个实例中可以表示为:k>1就是查全率有更大影响,就是好的香蕉最好都预测出来,因为你觉得不想把好的当成坏的扔点( 真可惜,我爱吃啊 ) ;k<1查准率有更大影响,就是一定要准确,省时间,省力更重要,不在乎好的香蕉当坏的扔点

    1.1K90发布于 2018-04-10
  • 来自专栏人工智能与演化计算成长与进阶

    第三章 1.1-1.3 查准率查全率F1 分数

    查准率,查全率,F1 分数 假设现在你需要识别猫的图片,并且你已经开发出了 A 和 B 两个分类器.评估你的分类器的方式是观察他的查准率(precesion)和查全率(recall) ? Precision 查准率 在你的分类器标记为猫的例子中,有多少真的是猫.95% 的机会表示当你的分类器认为这是一只猫时,95%的机会分类正确. 事实证明,虽然使用查准率和查全率来评估一个分类器是十分合理的,但是查准率和查重率之间往往需要一个折衷. 例如如果出现 A 分类器在查全率上表现得更好,但是 B 分类器在查准率上表现得更好. F1 分数 在机器学习的文献中,权衡查准率 P 和查全率 R 的方法是计算 P 和 R 的调和平均值(harmonic mean)即 F1 分数. ? Summary 很多机器学习团队都是这样,有一个开发集,用于测量查准率和查全率还会定义一个单一数值评估指标(单实数评估指标)能让你快速从众多分类器中挑选合适的分类器.加速机器学习算法的迭代过程. ?

    74120发布于 2020-08-14
  • 来自专栏人工智能与演化计算成长与进阶

    11机器学习系统设计3-4查全率查准率F1分数

    这样,对于总是预测病人肿瘤为良性的算法,其查全率是 0 ---- 11.4 查准率和查全率之间的权衡 Trading Off Precision and Recall 首先回顾 查准率(Precision ) 和 查全率(Recall) 的定义,其中 查准率(Precision)=TP/(TP+FP) 例,在所有预测有恶性肿瘤的病人中,实际上有恶性肿瘤的病人的百分比,越高越好。 如果 希望只在非常确信的情况下预测为真(肿瘤为恶性) ,即希望 更高的查准率 ,可以使用比 0.5 更大的阀值,如 0.7,0.9。 对于同一个机器学习系统不同的阈值往往对应 不同的查准率和查全率 ,那如何选择阈值才能平衡查准率和查全率,使其都有较好的结果呢? ? F1 值 使用 F1 值: 其中 P 表示 查准率 ,R 表示 查全率 。选择 F1 值最高的阈值。

    81310发布于 2020-08-14
  • 来自专栏杨熹的专栏

    机器学习中常用评估指标汇总

    综合考虑查准率,查全率的度量 当 查准率=查全率 时的点,谁大谁比较优。 F1 度量: 也是综合考虑查准率,查全率的度量,比 BEP 更常用: ? 则查全率有更大影响,β < 1 则查准率有更大影响,β = 1 则为 F1。 All (OvA) 分类问题 这时会在 n 个二分类问题上综合考虑查准率,查全率。 宏~ :先在每个混淆矩阵上计算率,再求平均 宏查准率 ? 宏查全率 ? 宏 F1 ? 此时,可以设定 代价矩阵 cost matrix: 如果将第 0 类预测为 第 1 类造成的损失更大,则 cost01 > cost10,相反将第 1 类预测为 第 0 类造成的损失更大,则 cost01 < cost10 : ?

    1.2K100发布于 2018-04-03
  • 来自专栏Python进阶之路

    深度学习笔记 常用的模型评估指标

    ,Recall指标在中卫里常被称为查全率或者是召回率,查准率 P 和查全率 R 分别定义为: 查准率P和查全率R的具体含义如下: 查准率(Precision)是指在所有系统判定的“真”的样本中,确实是真的的占比 ,一般而言,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。 情愿发出1000次警报,把10次地震都预测正确了;也不要预测100次对了8次漏了两次。所以我们可以设定在合理的precision下,最高的recall作为最优点,找到这个对应的threshold点。 在数据极度不平衡的情况下,譬如说1万封邮件中只有1封垃圾邮件,那么如果我挑出10封,50封,100…封垃圾邮件(假设我们每次挑出的N封邮件中都包含真正的那封垃圾邮件),Recall都是100%,但是FPR 分别是9/9999, 49/9999, 99/9999(数据都比较好看:FPR越低越好),而Precision却只有1/10,1/50, 1/100 (数据很差:Precision越高越好)。

    85110发布于 2021-12-01
  • 来自专栏一些有趣的Python案例

    《机器学习》学习笔记(二)——模型评估与选择

    最常用的取值为10(还有5、20等),此时称为10折交叉验证。 那么查全率=TP/(TP+FN)=40/(40+10)=80% 查准率=TP/(TP+FP)=40/(40+0)=100% 2.2.3 查准率-查全率曲线(P-R曲线)、BEP 15 9/16 9/17 9/18 10/19 10/20] 这里简单解释一下,y计算的是查准率(预测为真正例的样本数÷所有预测为正例的样本数) 第一个数1/1:预测结果为正,样本显示为正 于是下面我们引入了宏观查准率、查全率、F1 和 微观查准率、查全率、F1。 为10 那么整个1×1的区域被分为10×10=100个小矩形,每个小矩形面积0.1×0.1=0.01 一共上移及右移次数为10+10

    2.9K11发布于 2021-02-02
  • 来自专栏机器学习与统计学

    分类模型评估指标汇总

    通常来讲,查准率高,查全率就低,反之亦然。 或者固定查全率,比较查准率。 β>0,β度量了查全率对查准率的重要性,β=1时即为F1 β>1,查全率更重要,β<1,查准率更重要 多分类的F1 多分类没有正例负例之说,那么可以转化为多个二分类,即多个混淆矩阵,在这多个混淆矩阵上综合考虑查准率和查全率 ,即多分类的F1 方法1 直接在每个混淆矩阵上计算出查准率和查全率,再求平均,这样得到“宏查准率”,“宏查全率”和“宏F1” ? 方法2 把混淆矩阵中对应元素相加求平均,即 TP 的平均,TN 的平均,等,再计算查准率、查全率、F1,这样得到“微查准率”,“微查全率”和“微F1” ? ?

    1.4K10发布于 2019-12-04
  • 来自专栏讲编程的高老师

    偏斜类的误差度量

    本文是吴恩达《机器学习》视频笔记第68篇,对应第6周第10个视频。 当我们遇到偏斜类时,经常使用查准率(Precision)和召回率(recall)的概念。这两个概念适用于二分类问题。 对于一个二分类问题,预测结果和实际结果有四种组合。 查准率Precision的意思是,TP/(TP+FP)。就是你所有预测为真那些样本中,预测正确的样本的占比。癌症那个例子就是,算法认为的所有癌症患者中真正的癌症患者占比是多少。查准率越高越好。 这样,如果一个算法同时有较好的查准率和召回率,那这个算法就还是不错的。注意:使用查准率和召回率的时候,我们让那个出现比较少的情况为1(y=1出现较少)。

    71250发布于 2021-05-13
  • 来自专栏数据万花筒

    你真的了解模型评估与选择嘛

    1.查准率、查全率与F1 A.查准率(precision):被认定为正例的里面,判断正确的比例。 B.查全率(recall):真实正例里,被判断出为正例的比例。 C.F1衡量查准率与查全率 ? .一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低,可以通过P-R曲线来取两者的平衡值 ? "平衡点"是"查准率=查全率"时的取值。 但更常用的使用F1来衡量查准率与查全率; F1基于查准率与查全率的调和平均: ? sum为样例总数,具体应用中可能对P和R有不同的倚重。 比如商品推荐中,为了尽可能少打扰用户,更希望推荐内容确是用户感兴趣的,这时候查准率更重要。而在逃犯检索系统中,更希望尽可能少漏掉逃犯,此时查全率更重要。 (a)和(b)展示的是分类其在原始测试集(正负样本分布平衡)的结果,(c)和(d)是将测试集中负样本的数量增加到原来的10倍后,分类器的结果。

    1.1K30发布于 2020-12-30
  • 来自专栏Python数据科学

    【机器学习笔记】:一文让你彻底记住什么是ROC/AUC(看不懂你来找我)

    举个简单的例子,比如在一个总样本中,正样本占90%,负样本占10%,样本是严重不平衡的。 选取合适的阈值点要根据实际需求,比如我们想要高的查全率,那么我们就会牺牲一些查准率,在保证查全率最高的情况下,查准率也不那么低。 F1分数同时考虑了查准率和查全率,让二者同时达到最高,取一个平衡。F1分数的公式为 = 2*查准率*查全率 / (查准率 + 查全率)。我们在图中看到的平衡点就是F1分数得来的结果。 还是拿之前的例子,总样本中,90%是正样本,10%是负样本。我们知道用准确率是有水分的,但是用TPR和FPR不一样。 这里,TPR只关注90%正样本中有多少是被真正覆盖的,而与那10%毫无关系,同理,FPR只关注10%负样本中有多少是被错误覆盖的,也与那90%毫无关系,所以可以看出:如果我们从实际表现的各个结果角度出发

    3.4K20发布于 2018-10-18
  • 来自专栏全栈程序员必看

    PR曲线 可算是明白了 precision recall曲线

    比如阈值0.9,只有第一个样本被我判断为正例,那么我的查准率precision就是100%,但是查全率recall就是10%。 阈值0.1,所有样本都被我判断为正例,查全率是100%,查准率就是50% 最后我能得到若干对precision,recall值(P,R) : (1, 0.1),… ,(0.5,1),将这若干对花在图上

    63000编辑于 2022-07-04
  • 来自专栏图学习

    机器学习模型评估指标

    (有些不在名单中的人也会点击的) 这个场景中,第一个问题的答案是查准率,第二个问题的答案是查准率查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。 如现实场景,当我想要提高查全率(接触更多可能点击的人),就可能使得查准率降低(花费更多的成本来接触更多人);如果想要提升查准率(降低成本),就可能使得查全率降低(只能找比较少的目标对象)。 通常只有在一些简单任务中,才可能使查全率和查准率都很高。 ; 平衡点Break-Even Point(BEP)为查全率=查准率时的取值,值越大性能越优; 比较P-R曲线下的面积大小,在一定程度上表征分类器在查准率和查全率上取得双高的比例。

    3.1K144发布于 2021-11-04
  • 来自专栏SuperFeng

    机器学习系列16:机器学习系统设计

    其中用到了评估度量值:查准率(precision)和召回率(recall)。如下图: ? 可以知道,查准率是在所有我们预测结果为真的情况下,预测成功的概率;召回率是在所有实际结果为真的情况下,我们预测成功的概率。 那么回到刚才的问题,查准率是在所有我们预测为癌症的患者中,实际患有癌症的概率;召回率是在全部实际患有癌症的患者中,我们预测成功的概率。 权衡查准率和召回率 回顾逻辑回归算法: ? 当我们把临界值 0.5 增大,查准率就会增大而召回率就会减小,当我们把临界值 0.5 减小,查准率就会减小而召回率就会增大。 ? 根据 F1 值的定义,当查准率和召回率其中有一个为 0 时,F1 值就为 0,因此 F1 值可以作为评估度量值。

    59020发布于 2019-09-26
  • 来自专栏数据分析1480

    3个最常用的分类模型评估指标!

    于是,对应地定义查准率(precision)和查全率(recall)这两个技术指标(有的文献里,将查准率翻译为精确率;将查全率翻译为召回率)来评估一份预测结果的效果。比较直观的定义如图2所示。 ? 具体的定义如公式(3),从数学上来看,它其实是查准率与查全率的调和平均数。对于二元分类问题, ? 综合考虑了预测结果的查准率和查全率,是一个比较好的评估指标。 ? 其实从模型的角度来看,查准率与查全率的“相互矛盾”给了我们更多的调整空间。应用场景不同,我们对查准率和查全率的要求是不一样的。在有的场景中,关注的焦点是查全率。 也就是说,电商平台重视查全率,但不太关心查准率。这时就可以调低模型的预测标准,通过牺牲查准率来保证查全率。 但在有的场景中,查准率才是重点。 当靠近0时,偏向查准率,而很大时,则偏向查全率,如图4所示。 ? ? 图4 04 总结 查准率、查全率和F-score是最为常用的二元分类结果评估指标。

    3.1K10发布于 2019-05-22
  • 来自专栏杨丝儿的小站

    【机器学习】第六部分:模型评估

    类似的问题在很多分类场景下都会出现,“查准率”(precision)与“召回率”(recall)是更为适合的度量标准。 一般来说,查准率高时,召回率往往偏低;召回率高时,查准率往往偏低。 例如,在病毒感染者检测中,若要提高查准率,只需要采取更严格的标准即可,这样会导致漏掉部分感染者,召回率就变低了;反之,放松检测标准,更多的人被检测为感染,召回率升高了,查准率又降低了. 通常只有在一些简单任务中,才能同时获得较高查准率和召回率。 查准率和召回率在不同应用中重要性也不同。 根据混淆矩阵,查准率、召回率也可表示为: 查准率 = 主对角线上的值 / 该值所在列的和 召回率 = 主对角线上的值 / 该值所在行的和 ④ 实验 利用sklearn提供的朴素贝叶斯分类器分类,并打印查准率

    1.3K10编辑于 2022-02-18
  • 来自专栏梦里茶室

    西瓜书概念整理(chapter 1-2)熟悉机器学习术语

    : 符号主义(363)(symbolism) 基于逻辑表示 Page10: 连接主义(connectionism) 基于神经网络 Page10: 人工智能 有很多种说法。。 Page30: 查准率(precision) 预测为真且正确的结果占所有预测结果的比例。 Page31: P-R曲线 查准率(纵轴)与查全率(横轴)的关系曲线 Page31: 平衡点(break-even point,bep) 查准率=查全率时的取值。 ),p是样例为正例的概率 归一化代价: cost_norm = (FNR * p * cost01 + FPR * (1-p) * cost10)/(p * cost01+ (1-p) * cost10 τx² = (|e01-e10|-1)²/(e01+e10) 是否服从自由度为1的卡方分布(标准正态分布变量的平方) Page41: 列联表(187) 见McNemar检验 Page42: Friedman

    1.7K100发布于 2017-12-29
  • 来自专栏JNing的专栏

    机器学习: 性能度量

    介绍 在机器学习中,性能度量主要体现在三个指标: 查准率(P)、查全率(R)、F1 。 def performance(tp, fn, fp, tn): # 查准率 P = tp / float(tp + fp) # 查全率 R = tp / float(tp P, R, F1 = performance(white_pixels, red_pixels, green_pixels, black_pixels) print '查准率 P = {:>.3f}, red_pixels = 29158, 530899, 75994, 3949 sum_pixels = 640000 def performance(tp, fn, fp, tn): # 查准率 F1 = 0.930 以 标注框结果 作为 预测值, 二值化结果 作为 ground_truth 时: 实际 横截面区域 占图像 0.948, 预测值为 0.836, 损失比例为 0.119 查准率

    79720发布于 2018-09-28
  • 来自专栏DeepHub IMBA

    精度是远远不够的:如何最好地评估一个分类器?

    混淆矩阵的用途是计算查准率和查全率。 查准率与查全率(Precision & Recall) 查准率(又称准确率)和查全率(又称召回率)相比分类精度来说更进一步,使我们对模型评估有了更加具体的了解。 查准率衡量的是我们的分类器预测正类的准确性 ? 查准率的重点在于准确地预测正类,它显示了我们预测的正类中有多少是真正的正类。 我们不可能同时提高查准率与查全率,因为这二者仿佛鱼和熊掌,不可兼得。提高查准率会降低查全率,反之亦然。根据任务的不同,我们可以最大限度地提高查准率或查全率中的某一个。 还有一种指标把查准率与查全率结合了起来,这就是F1度量。 F1度量(F1 Score) F1度量是查准率与查全率的调和平均的倒数。 ? 因此,不同样本的分类结果会随着阈值的改变而变化,进而改变查准率与查全率等指标。 ROC曲线通过组合不同阈值取值下的混淆矩阵,总结了模型在不同阈值下的性能。

    1.9K30发布于 2020-05-09
领券