首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏图灵人工智能

    11个重要的机器学习模型评估指标

    评估指标能体现模型的运转情况。评估指标的一个重要作用在于能够区分众多模型的结果。 很多分析师和数据科学家甚至都不愿意去检查其模型的鲁棒性。 在这个行业中,大家会考虑用不同类型的指标来评估模型。指标的选择完全取决于模型的类型和执行模型的计划。 模型构建完成后,这11个指标将帮助评估模型的准确性。 2.如果预测值或实际值很大:RMSE> RMSLE 3.如果预测值和实际值都很大:RMSE> RMSLE(RMSLE几乎可以忽略不计) 11. 除了这11个指标之外,还有另一种检验模型性能。这7种方法在数据科学中具有统计学意义。但是,随着机器学习的到来,我们现在拥有更强大的模型选择方法。没错!现在来谈论一下交叉验证。 此外,本文中介绍的指标标准是分类和回归问题中评估最常用的指标标准。

    2.5K10编辑于 2022-09-01
  • 来自专栏应兆康的专栏

    11. 什么时候更改开发测试集和评估指标

    11. 什么时候更改开发/测试集和评估指标 当开始一个新项目的时候,我会试图快速的选择开发/测试集,因为这样可以给团队一个很明确的目标。 算法在开发集上过拟合了 你把你的评估标准设置的过高,在开发集上反复评估导致算法过拟合,当完成开发后,如果你的算法在开发集上的效果明显高于在测试集上的效果,这就意味着你的算法在开发集上过拟合了。 评估指标衡量的并不是项目优化所需要的东西 假设对于你的猫咪APP,你的评估指标是分类准确率。在该指标下,分类器A优于分类器B。但是假设你尝试了这两种算法,发现分类器A偶尔会允许敏感图片通过。 这里,该评估指标不能辨别出对产品而言算法B比算法A好这一事实。所以,这时候你就不能相信这个指标可以帮你选择出最好的分类器,你需要重新选择评估指标。 在项目中改变开发/测试集或者评估指标是很常见的。拥有一个初始的开发/测试集和评估指标能帮你快速迭代你的idea。如果你发现你的开发/测试集或评估指标没有正确的引导你的团队前进,你可以随时更改它们。

    75670发布于 2018-05-09
  • 来自专栏贾志刚-OpenCV学堂

    OpenCV4 C# YOLO11姿态评估模型部署

    YOLO11姿态评估模型 YOLO11是YOLOv5跟YOLOv8作者推出最新升级版本模型,支持分类、检测、分割、姿态评估、OBB。 这里以YOLO11姿态评估模型为例,演示OpenCV C#如何运行,YOLO11-pose模型的输入与输出。 姿态评估演示", frame); Cv2.WaitKey(0); Cv2.DestroyAllWindows(); 运行结果如下: 后处理关键点绘制 最后得到17个关键点的绘制代码如下: Cv2.Line (kypt.At<float>(11, 0), kypt.At<float>(11, 1)), Scalar.RandomColor(), 2); Cv2.Line(frame, new Point(kypt.At <float>(11, 0), kypt.At<float>(11, 1)), new Point(kypt.At<float>(13, 0), kypt.At<float>(13, 1)), Scalar.RandomColor

    11710编辑于 2026-04-02
  • 来自专栏应兆康的专栏

    11. 什么时候更改开发测试集和评估指标

    11. 什么时候更改开发/测试集和评估指标 当开始一个新项目的时候,我会试图快速的选择开发/测试集,因为这样可以给团队一个很明确的目标。 算法在开发集上过拟合了 你把你的评估标准设置的过高,在开发集上反复评估导致算法过拟合,当完成开发后,如果你的算法在开发集上的效果明显高于在测试集上的效果,这就意味着你的算法在开发集上过拟合了。 评估指标衡量的并不是项目优化所需要的东西 假设对于你的猫咪APP,你的评估指标是分类准确率。在该指标下,分类器A优于分类器B。但是假设你尝试了这两种算法,发现分类器A偶尔会允许敏感图片通过。 这里,该评估指标不能辨别出对产品而言算法B比算法A好这一事实。所以,这时候你就不能相信这个指标可以帮你选择出最好的分类器,你需要重新选择评估指标。 在项目中改变开发/测试集或者评估指标是很常见的。拥有一个初始的开发/测试集和评估指标能帮你快速迭代你的idea。如果你发现你的开发/测试集或评估指标没有正确的引导你的团队前进,你可以随时更改它们。

    47610发布于 2018-05-30
  • 来自专栏网络安全技术点滴分享

    2014年11月微软安全更新风险评估与技术解析

    评估2014年11月安全更新的风险今天我们发布了十四个安全公告,涉及33个独特CVE。四个公告的最高严重等级为“严重”,八个为“重要”,两个为“中等”。下表旨在帮助您根据环境优先部署更新。 严重 1 1 内部在主动安全评估中发现。MS14-065 (Internet Explorer)用户浏览恶意网页。

    28010编辑于 2025-09-10
  • 来自专栏磐创AI技术团队的专栏

    你知道这11个重要的机器学习模型评估指标吗?

    译者 | Arno 来源 | Analytics Vidhya 【磐创AI导读】:评估一个模型是建立一个有效的机器学习模型的核心部分,本文为大家介绍了一些机器学习模型评估指标,希望对大家有所帮助。 不同的评估指标用于不同类型的问题 介绍 建立机器学习模型的想法是基于一个建设性的反馈原则。你构建一个模型,从指标中获得反馈,进行改进,直到达到理想的精度为止。评估指标解释了模型的性能。 在我们的行业中,我们考虑不同种类的指标来评估我们的模型。指标的选择完全取决于模型的类型和模型的实现计划。 在你构建完模型之后,这11个指标将帮助你评估模型的准确性。 如果预测或是实际值很大:RMSE> RMSLE 如果预测值和实际值都很大:RMSE> RMSLE(RMSLE几乎可以忽略不计) 11. 除了这11个指标之外,还有另一种检查模型性能的方法。这7种方法在数据科学中具有统计学意义。但是,随着机器学习的到来,我们现在拥有更强大的模型选择方法。没错!就是交叉验证。

    4.2K40发布于 2019-08-23
  • 来自专栏Rust语言学习交流

    【Rust日报】2022-11-21 第三方crate评估指导

    第三方crate评估指导 相信很多人在选择crate的时候,都有自己对crate的评估标准,本文从下面十个方面给出评估指导: Licensing Maintainers Unsafe Auditing

    55160编辑于 2022-11-28
  • 来自专栏网络安全技术点滴分享

    YOLOv7安全评估揭示11个漏洞:RCE攻击与模型差异风险

    11月15日机器学习TL;DR: 我们在流行计算机视觉框架YOLOv7中发现了11个安全漏洞,这些漏洞可能导致远程代码执行(RCE)、拒绝服务和模型差异(攻击者可在不同场景下触发模型产生不同行为)等攻击 鉴于这些风险,我们决定评估流行且成熟的视觉模型YOLOv7的安全性。 我们的方法借鉴了Mozilla的“快速风险评估”方法和NIST的以数据为中心的威胁建模指南(NIST 800-154)。 代码库中目前没有单元测试或任何测试框架(TOB-YOLO-11)。适当的测试框架本可以防止我们发现的一些问题,而没有这个框架,代码库中可能存在其他实现缺陷和错误。 我们在安全评估期间发现的ML特定问题亮点包括:YOLOv7代码库使用pickle文件存储模型和数据集;这些文件未经验证,可能从第三方源获取。

    29310编辑于 2025-09-19
  • “大模型安全评估”需要评估哪些?

    因此,构建一套科学、系统、多维度的安全评估体系,不再是可选项,而是确保其健康发展的必然要求。 #大模型备案##安全评估##生成式人工智能#一、语料安全评估二、生成内容评估暴力、仇恨与非法内容: 评估模型是否会生成宣扬暴力、恐怖主义、种族歧视、性别歧视、仇恨言论等的内容。 三、涉知识产权、商业秘密评估四、涉民族、信仰、性别等评估五、涉透明性、准确性、可靠性等评估事实准确性与反幻觉: “幻觉”是指模型生成看似合理但实则错误或虚构的信息。 评估需检验模型在知识密集型任务(如问答、摘要)中的事实准确性,及其对不确定信息的处理能力。逻辑一致性与连贯性: 评估模型在长文本生成或多轮对话中,是否能在逻辑上保持前后一致,避免自相矛盾或答非所问。 六、模型性能(拒答率)评估大模型的安全评估是一个动态、持续且多学科交叉的复杂工程,它需要技术专家、伦理学家、法律学者、社会科学家和领域专家的共同参与。

    61410编辑于 2025-08-26
  • 来自专栏生信喵实验柴

    BUSCO 评估

    背景 用于转录组和基因组组装质量进行评估的软件,前面介绍了quast,今天的是busco,对于动物植物较大的基因组拼接结果评估,这个软件很好用。 busco简介 BUSCO(Benchmarking Universal Single-Copy Orthologs)主要用于转录组和基因组组装质量进行评估的软件。 BUSCO 对拼接结果的评估与 quast 不同,它并不追求基因组拼接的长度,而关注的是是否将一些单拷贝直系同源基因拼接出来。 BUSCO 评估的原理其实不难,软件根据 OrthoDB 数据库,构建了几个大的进化分支的单拷贝基因集。 包括基因组组装评估(all)、转录组组装评估(OGS)以及基因预测评估(trans) 其他选项 -sp :做 AUGUSTUS 用于训练的物种名字 -e :blast 的 e 值

    2.1K41编辑于 2022-05-23
  • 来自专栏贾志刚-OpenCV学堂

    YOLO11对象检测,实例分割,姿态评估的TensorRT C++部署

    C++推理 YOLO11是Ultralytics最新发布的 目标检测、实例分割、姿态评估的系列模型视觉轻量化框架,基于前代YOLO8版本进行了多项改进和优化。 YOLO11在特征提取、效率和速度、准确性以及环境适应性方面都有显著提升,达到SOTA。 YOLO11对象检测 + TensorRT10.8 YOLO11实例分割 + TensorRT10.8推理演示: YOLO11姿态评估 + TensorRT10.8推理演示: 上述代码我均已经完成C+ > int main(int argc, char** argv) { std::shared_ptr<YOLO11TRTPose> detector(new YOLO11TRTPose()); ); if (frame.empty()) { break; } detector->detect(frame); cv::imshow("YOLO12姿态评估

    19810编辑于 2026-04-02
  • 来自专栏生信喵实验柴

    quast评估

    一、组装结果评估 1、准确性 基因组大小接近真实大小,拼出来的一般小于真实大小; GC含量接近真实GC含量,一个物种含量固定,可以判断污染; 基因组框架没有问题; 三、quast评估 今天给大家介绍一款,quast QUAST: Quality Assessment Tool for Genome Assemblies,可以对不同软件拼接的基因组序列, 软件官网:QUAST:http://bioinf.spbau.ru/quast #quast 评估案例: quast.py -r MGH78578.fasta spades.fa soapdenovo.fa

    1.7K20编辑于 2022-05-23
  • 来自专栏zingpLiu

    模型评估

    文章从模型评估的基本概念开始,分别介绍了常见的分类模型的评估指标和回归模型的评估指标以及这些指标的局限性。部分知识点举例加以阐述,以便加深理解。 所以,为了得到泛化误差小的模型,在构建机器模型时,通常将数据集拆分为相互独立的训练数据集、验证数据集和测试数据集等,而在训练过程中使用验证数据集来评估模型并据此更新超参数,训练结束后使用测试数据集评估训练好的最终模型的性能 2 评估指标的局限性 在模型评估过程中,分类问题、排序问题、回归问题往往需要使用不同的指标进行评估。在诸多的评估指标中,大部分指标只能片面地反映模型的一部分性能。 如果不能合理地运用评估指标,不仅不能发现模型本身的问题,而且会得出错误的结论。 3 分类模型的评估指标 正样本:需要判定概率为1的类型的样本叫做正样本。 第三,可以找一个更合适的指标来评估该模型。

    1.6K30发布于 2019-04-01
  • 来自专栏用户8715145的专栏

    主机安全风险评估的类型 评估工具

    在实际使用中难免会遇到一些病毒,所以大家采购时会有一些主机安全风险评估,会选择一些相对平稳的主机,以免后期运用造成数据的丢失和工作效率低下的问题。 那么主机安全风险评估有哪些种类,和怎么控制风险的发生呢,小编给大家整理了一下相关介绍。 安全风险评估和工具 电脑的使用现在已经很普遍了,使用电脑就会有一些隐私的数据,想达到数据的安全以及防止数据的安全性,我们要对主机进行一个安全风险的评估。安全风险评估分为哪些呢? 风险评估一方面是对安全手段的评估,另一方面要对实际安全效果的评估。要想达到这种目的,我们要通过安全扫描、手工检查、渗透测试、安全审计、安全策略等方法进行安全风险评估。 企业更要有安全意识,把基础网络和重要信息的制度输入给员工,结合开展风险评估、应控等形式提高基础网络和信息系统的维护。

    1.7K30编辑于 2021-12-03
  • 来自专栏SAP ERP管理实践

    SAP 物料的“评估类型”和“评估类别”

    由于“分割评估”涉及技术部分更多,将主要步骤分享如下: 一、后台定义部分 (1)激活“分割评估”功能; (2)定义“评估类型”(ValuationType)(如本文中提到“自制品”、“外购品”两种评估类型 ,并选择相应帐户分类参考参数(与评估类相关),评估类型是评估类别的细分); (3)定义“评估类别”(ValuationCategory)(分割评估的标准,将其中的评估类型与相应工厂激活); (4)定义“ 评估区域”(ValuationArea)(评估区域可以公司范围内,也可以在工厂范围内) 二、前台操作部分 (1)定义物料主数据,将评估类别定义在会计视图中(其价格控制须选移动平均价V); (2)定义“评估类型 ”为自制品的物料主数据(其评估级别与价格控制据需要填制); (3)定义“评估类型”为外购品的物料主数据(其评估级别与价格控制据需要填制); 注:前台操作第一步为第二步、第三步奠定基础,起作用的将是各制带评估类别的物料 三、相关关联部分 (1)“评估类型”分配给“评估类别”,再与物料主数据关联; (2)“评估类”(ValuationClass)分配给“物料类型”(MaterialType),再与物料主数据关联; 带有分割评估的物料

    9.8K43发布于 2021-04-23
  • 来自专栏数据森麟

    又是模型评估?到底怎么评估?『附 AUC 评估的三计算方法』

    前面一节提到了模型评估指标中 ROC 的详细概念和四个常见的问题,以后在遇到 ROC 想必再也不会发懵了:聊聊模型评估的事儿,附 roc 常见的四个灵魂发问 但是一般在说到 ROC 的时候,就会不自觉地提到

    3.8K10发布于 2021-03-11
  • 来自专栏全栈程序员必看

    模型评估

    离线评估无法完全消除模型过拟合的影响,因此,得出的离线评估结果无法完全替代线上评估结果 离线评估无法完全还原线上的工程环境。一般来讲,离线评估往往不会考虑线上环境的延迟、数据丢失、标签数据缺失等情况。 因此,离线评估的结果是理想工程环境下的结果。 线上系统的某些商业指标在离线评估中无法计算。离线评估一般是针对模型本身进行评估,而与模型相关的其他指标,特别是商业指标,往往无法直接获得。 比如,上线了新的推荐算法,离线评估往往关注的是ROC曲线、P-R曲线等的改进,而线上评估可以全面了解该推荐算法带来的用户点击率、留存时长、PV访问量等的变化。 5 模型评估的方法 知识点:Holdout检验、交叉验证、自助法(Bootstrap)、微积分 问题:在模型评估过程中,有哪些主要的验证方法,优缺点? 7 过拟合与欠拟合 问题:在模型评估过程中,过拟合和欠拟合具体是指什么现象?

    98140发布于 2021-05-20
  • 来自专栏FreeBuf

    评估的意义

    这一期主题是体系评估,那么这里其实评估的不仅仅的是安全体系的评估,还有业务的评估、风险的评估、设备的评估、人员的评估等等。而且主要是涉及中层的工作。 评估的意义是什么? 业务方面应该由业务所有者(项目合作者)来进行评估,也就是由高层进行,评估后如果业务可以实施,交由中层进行业务设计,此时要对风险、选用设备进行评估,同时还要对人员进行评估。 等保与体系管理的风险评估大多是评估这些,而我说的风险评估是业务本身的风险,包括业务被中断、投入变化等等,当然两个风险评估是都要做的。 (2)时效性评估 时效性评估主要评估整个业务体系的持续时间与设备投入时间比较,防止因设备老化产生的问题。 最后总结一下评估工作,很多人说评估是没有必要的浪费时间,在行动派眼中评估是空想,但我更想说的是,其实任何行动之前都是要评估的,如果评估结果告诉你这件事情可以不做,总要好过做一半发现他没有意义要更节省时间

    1.3K10发布于 2020-02-12
  • 来自专栏Python与算法之美

    评估指标metrics

    本篇我们介绍评估指标。 一,评估指标概述 损失函数除了作为模型训练时候的优化目标,也能够作为模型好坏的一种评价指标。但通常人们还会从其它角度评估模型的好坏。 这就是评估指标。 通常损失函数都可以作为评估指标,如MAE,MSE,CategoricalCrossentropy等也是常用的评估指标。 但评估指标不一定可以作为损失函数,例如AUC,Accuracy,Precision。因为评估指标不要求连续可导,而损失函数通常要求连续可导。 编译模型时,可以通过列表形式指定多个评估指标。 如果有需要,也可以自定义评估指标。 自定义评估指标需要接收两个张量y_true,y_pred作为输入参数,并输出一个标量作为评估值。 如果编写函数形式的评估指标,则只能取epoch中各个batch计算的评估指标结果的平均值作为整个epoch上的评估指标结果,这个结果通常会偏离拿整个epoch数据一次计算的结果。

    2.1K30发布于 2020-07-20
  • 来自专栏全栈程序员必看

    分类模型评估方法_政策评估的模型与方法

    错误率(error_rate)和精度(accuracy)是分类任务中最常用的两个指标,既适用于二分类任务也适用于多分类任务;

    83030编辑于 2022-11-10
领券