首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Chasays

    音频质量评估-2

    音频质量评估-1:之前主要学习了音视频的编码和解码原理,和测试音频质量的方法。接下来继续学习下当前 短视频 领域的 视频质量测试方法。 (imageB, cv2.COLOR_BGR2GRAY) # 5. 延时 网络因子 --- 带宽, 网络拥塞 除此之外呢,就是对视频画面也就是视频帧观感的评估, 业界有主观和客观的。 这种评估标准适合与线上无原始参考视频序列的无线和IP视频业务,或者输入和输出差异化的模型,比如说视频增强,视频合并等场景 测试框架 目前知晓的有2个,一个 QoSTestFramework,一个是Netflix 预处理 Analysis module 分析 Web Application -- 触发测试任务和可视化结果显示 Video transmission adapter module -- 用于不同实时视频系统的适配

    1.5K10编辑于 2021-12-06
  • 来自专栏机器学习/数据可视化

    模型评估方法-2

    评估方法 在实际中,通常需要通过实现对学习器的泛化误差进行评估并进而做出选择。需要使用一个测试集来测试学习器对新样本的判别能力,然后以测试误差近似作为“泛化误差”。 在S上进行训练模型,在T上进行测试和评估误差,作为对泛化误差的估计。注意点: 训练/测试集合的划分应该尽量保持数据分布的一致性,避免因为数据划分过程而引入额外的偏差。 比如S中350个正例,350个反例;T中150个正例,150个反例 即使确定了划分比例之后,不同的划分方法仍然对模型的评估造成缺别。 交叉验证法 现将数据集合D划分成k个大小相似的互斥子集D_1,D_2,…,D_k。每个子集尽量保持数据分布的一致性,即从D中分层采样得到。 交叉验证法评估结果的稳定性和保真性在很大程度上是取决于k值,其最常用的是10,称之为10折交叉验证法。 交叉验证也需要随机使用不同的划分重复p次,最终的评估结果是p次k折验证的平均值。

    74810发布于 2021-03-02
  • 来自专栏超级架构师

    SCADA系列 系统评估

    选择一个可以设计适合您需求的系统的SCADA系统提供商可能是一个压倒性的,令人困惑的任务。对SCADA和数据采集系统的了解甚少或不完整的系统评估,所做出的决定可能是代价高昂的错误。 他们可能引诱你或压力,而不是根据影响最佳系统性能的所有因素来配备您做出正确的决定。 这些和其他昂贵的错误可以通过了解,理解和仔细评估您的特定需求来避免。 EPG公司公司已经准备了该SCADA系统评估,以帮助您确定什么SCADA或数据采集系统适合您。如果您在审查此评估后有任何问题或意见,请致电800-443-7426,并要求SCADA或数据采集专家。 2.远程终端单元(RTU) 远程终端单元通常定义为SCADA系统内的通信卫星,位于远程站点。 RTU从内存中的现场设备(泵,阀门,报警器等)收集数据,直到MTU启动发送命令。 EPG公司公司已经准备了这个系统评估,以帮助您准备购买SCADA系统的方式,为您提供多年的成本效益和可靠的流程控制,同时为您开放明天的扩张和选择。

    2.3K50发布于 2018-04-09
  • BLOOM评估系统:自动化LLM行为评估框架

    BLOOM评估系统:自动化LLM行为评估框架项目概述BLOOM(Bloom Rollout Pipeline)是一个开源的大语言模型行为评估系统,专门用于自动化测试和评估LLM的特定行为模式。 该系统采用可配置的种子驱动方法,允许研究人员定义目标行为(如迎合性、政治偏见、自我保存等),并自动生成多样化的评估交互场景来测试模型在这些行为上的表现。 :支持零样本和少样本评估配置安装指南环境要求Python 3.11或更高版本支持的操作系统:Linux、macOS、Windows至少8GB可用内存安装步骤克隆项目仓库git clone <repository-url "example1.json", "example2.json"] # 示例转录文件total_evals: 100rollout: target: "gpt-4o" model: "claude-sonnet __name__}: {str(e)}") return None # 步骤2:解析响应 parsed = parse_message(response

    21010编辑于 2026-01-05
  • 来自专栏机器学习之旅

    量化评估推荐系统效果

    推荐系统最有效的方法就是A/B test进行模型之间的对比,但是由于现实原因的局限,存在现实实时的困难性,所以,梳理了一些可以补充替代的指标如下,但是离线评估也存在相应的问题: 数据集的稀疏性限制了适用范围 评价结果的客观性,由于用户的主观性,不管离线评测的结果如何,都不能得出用户是否喜欢某推荐系统的结论,只是一个近似的评估。 深度评估指标的缺失。 skn总数 F1-Measure 2/(1/recall+1/precison) 交互熵 MAE RMSE 相关性 常见的比如:Pearson、Spearman和Kendall’s Tau相关,其中 离线模型与在线模型之间的评估 很多时候,我们需要确定离线模型的效果足够的健壮才能允许上线进行线上测试,那如何进行离线模型与线上模型的评估对比就是一个比较复杂的问题。 其他评估方向 覆盖率 推荐覆盖率越高, 系统给用户推荐的商品种类就越多 ,推荐多样新颖的可能性就越大。

    2K30发布于 2018-08-27
  • 来自专栏后端系统和架构

    如何评估、预测系统的QPS

    [TOC]如何评估、预测系统的QPS容量评估按照5倍冗余计算系统架构设计背景当我们在设计一套系统的时候,我们要考虑好系统的架构设计、模块划分、技术方案选型、还有系统性能如能够承受的QPS。 本文就如何评估、预测我们系统的QPS做一些经验输出,不足之处望大佬们指正~评估案例和方案为啥要进行评估? 因为不同的QPS,所带来的挑战是不同的,架构设计也是不一样的如何评估系统的QPS如何评估系统的QPS,指的是我们的系统支撑的业务场景需要满足的一个最大承压,对于一个新项目而言,一般来说,有这样几个方式: Feed系统的预估对于Feed这样的系统(如微博),我们可以预估一下,全量用户每天总共会发送1000W条Feed,那么Feed子系统一天就会产生1000W条消息,同时,我们预估每条Feed平均有10个用户会去查看 然而,我们压测的目的在于验证我们的猜测,看看我们实际系统和预测的有多少差别。这就是为什么有经验的人只要你告诉他你的系统架构设计,他就能预估你的系统最大能承受的QPS是多少的原因。

    9.6K32编辑于 2022-11-12
  • 来自专栏活动

    如何评估推荐系统的性能

    在构建推荐系统时,性能评估是一个至关重要的环节。有效的评估方法不仅能衡量系统当前的表现,还能帮助发现系统的不足之处,指导后续的优化工作。 推荐系统评估的重要性 推荐系统的核心目标是为用户提供个性化的内容推荐,从而提高用户满意度和业务指标。因此,评估推荐系统的性能至关重要。评估的结果不仅反映了系统的推荐效果,还为进一步的优化提供了依据。 系统效率:系统在推荐过程中的响应速度和计算资源消耗。 推荐系统评估指标 推荐系统评估通常涉及多个指标,每个指标都反映了系统性能的不同方面。 推荐系统评估中的挑战 在评估推荐系统性能时,尽管有多种评估指标可供选择,但这一过程依然面临许多复杂的挑战。 此外,还可以采用混合评估策略,将部分离线评估与实时评估相结合,在不影响实时性的前提下确保评估结果的全面性和准确性。 评估推荐系统的性能是推荐系统开发过程中的关键环节。

    1K00编辑于 2024-08-12
  • 来自专栏Java技术进阶

    系统架构】-如何评估软件架构

    基于调查问卷(检查表)的方式 基于度量的方式 基于场景的方式 几种方式的比较 评估方式 调查问卷 检查表 场景 度量 通用性 通用 特定领域 特定系统 通用或特定领域 评估者对架构的了解程序 粗略了解 无限制 中等了解 精确了解 实施阶段 早 中 中 中 客观性 主观 主观 较主观 较客观 基于调查问卷(检查表) 该方式的关键是要设计好问卷或检查表,它充分利用系统相关人员的经验和知识,获得对架构的评估 基于度量 该方式建立在软件架构度量的基础上,首先要建立质量属性和度量之间的映射原则,即确定怎么样从度量结果推出系统具有什么样的质量属性;然后从软件架构文档中获取度量信息;最后根据映射原则分析推到出系统的质量属性 它提供更为客观和量化的质量评估,但对评估人员和适用技术有较高要求。 1、整理场景 2、对场景进行求精 3、确定场景的优先级 4、分配效用 5、形成策略-场景-响应级别的对应关系 6、使用“内插法”确定期望的质量属性响应级别的效用 7、计算架构策略的总收益

    1.5K30编辑于 2022-12-02
  • 自主系统伦理评估新框架

    某机构的研究人员开发了一种测试框架,能够精确定位AI决策支持系统在对待个人和社区时不公平的情况。在像电网这样的大型系统中,评估AI模型建议在伦理层面与所有目标的一致性尤为困难。 基于他们先前评估机器人系统的工作,他们开发了一个实验设计框架,用以识别最具信息量的场景,然后由人类利益相关者对这些场景进行更仔细的评估。 一个客观模型考虑系统在成本等可衡量指标上的表现。然后,一个考虑利益相关者判断(如感知公平性)的主观模型建立在客观评估之上。“我们方法的客观部分与AI系统相关,而主观部分与评估它的用户相关。 通过以分层方式分解偏好,我们可以用更少的评估生成所需的场景。” Parashar说道。编码主观性为了执行主观评估系统使用大语言模型作为人类评估者的代理。 为了测试SEED-SET,研究人员评估了现实的自主系统,如AI驱动的电网和城市交通路由系统。他们测量了生成场景与伦理标准的一致性。

    7610编辑于 2026-04-13
  • 来自专栏小鹏的专栏

    机器学习-2:MachineLN之模型评估

    那么我的问题是: (1)为什么要评估模型? (2评估模型有哪些方法? (3)不同的方法针对什么问题? (4)根据评估的结果如何调优? (5)根据评估结果怎么判定模型训练完成? (2评估模型有哪些方法? 在(2)中回答过了。 (4)根据评估的结果如何调优?(都是基于深度学习的,?) 当训练集的效果(准确率)上不去,和贝叶斯估计(人的表现)存在一定差距的时候: (1)增加模型的复杂度。  还有像样本预处理: (1)归一化:img/255.0,img-0.5, img*2,将数据转化为[-1,1]. (2)减去均值除以方差。 (3)减去样本各通道的均值。 机器学习-1:MachineLN之三要素 2. 机器学习-2:MachineLN之模型评估 3. 机器学习-3:MachineLN之dl 4. 机器学习-4:DeepLN之CNN解析 5. 

    51720编辑于 2022-05-09
  • 来自专栏性能与架构

    高可用架构 - 系统性能评估

    性能评估的要点 CPU 主要工具:vmstat 内存 主要工具:free 磁盘I/O 主要工具:iostat、sar 网络I/O 主要工具:ifstat 系统整体性能 主要工具:top CPU 评估 ? cpu:sy 如果太高,表示系统调用时间长,例如是IO操作频繁。 如果 us + sy 大于80%,说明可能存在CPU不足。 内存评估 ? free 命令重点指标:free(应用程序可用内存数量)。 磁盘I/O评估 ? : RX Pkts/Rate 数据包接收流量 RX Errs/Drop 丢包 TX Pkts/Rate 数据包发送流量 RX Data/Rate 数据接收流量 TX Data/Rate 数据发送流量 系统整体性能评估 经验: 这3个值的大小一般不能大于系统CPU的核数,如果长期大于CPU的核数,说明CPU很繁忙,负载很高。 例如图中有2个CPU,那么健康值为:load average < 2

    1K31发布于 2019-12-15
  • 来自专栏燧机科技-视频AI智能分析

    电工考试操作行为识别评估系统

    存在三大痛点:主观偏差:考评员业务水平差异导致评分一致性低(不同考评员对同一操作评分差异率达22%),情绪因素影响客观判断; 师资瓶颈:“考培分离”模式下,优质考评师资缺口超30%,部分地区考试排队周期长达2个月 本文提出基于YOLOv12目标检测、Transformer时序建模与多模态感知的智能识别评估系统,通过“视觉感知-时序行为-规则引擎-量化评分”全链路架构,实现操作行为识别精度96.5%(实验室数据), 二、系统架构与技术实现 (一)硬件部署方案 多模态感知单元​ 多角度工业摄像机:选用海康威视DS-2CD7A47G0-L(800万像素、1/1.8" CMOS、0.005Lux超低照度、H.265编码) (二)算法层核心设计 YOLOv12-Transformer融合的行为时序评估模型​ 针对“多步骤操作顺序性”与“工具-人体协同动作”识别难题,设计“检测-跟踪-时序建模-规则评估”四步流程: import 电工考试操作行为识别评估系统基于YOLOv12和Transformer架构深度学习算法,电工考试操作行为识别评估系统通过集成AI大模型,自动对作业的漏操作、误操作、操作顺序错误等进行自动识别,保证了智能评分的准确性和可靠性

    19510编辑于 2026-01-18
  • 来自专栏时空探索之旅

    评估零样本时间序列预测中系统 1 与系统 2 推理方法:基准与见解

    1和系统2推理策略在零样本时间序列预测中的有效性。 研究发现,自我一致性策略最有效,多模态预测受益更多,系统1推理增强优于系统2。论文还提供了开源工具包,包括评估套件、测试时扩展法则验证和推理标注数据集。 关键词:时间序列预测、推理策略、系统1、系统2、零样本学习、基准测试、自我一致性、多模态数据、基础模型、深度学习 时序人:时间序列预测是否受益于推理能力? 佐治亚理工学院构建首个基准 根据人类认知理论,人类的思考受到两个系统控制: System 1:系统 1,速度快,基于直觉。 System 2系统 2,速度更慢,更加深思熟虑。 在所有数据集和设置下,推理策略与相应的直接系统 1 相比的平均胜率。观察到自洽性的一致且显著的有效性,以及在系统 2 策略中 DeepSeek-R1 的独特有效性。

    35410编辑于 2025-03-12
  • 来自专栏网站漏洞修复

    网站安全评估系统的设计概述

    其次,在利用各种渗透测试技术对网站进行测试获得测试结果的基础上,设计了基于自动集成测试系统的渗透测试和安全评估方案。 进一步研究安全评估的核心算法,综合考虑了系统维护人员对目标的预估和测试结束后测试人员对目标的评估两个因素,提出了基于攻防游戏结果预估的网站安全评估算法和评估流程。 最后,实现了自动渗透测试集成系统,并对系统的测试结果与单一渗透测试技术的结果进行了详细的分析和比较。 综上所述,需要设计一个系统来整合渗透测试和安全评估工具的优势。 综合测试测试目标不仅可以大大提高网站的整体安全性,而且集成系统操作简单,可重用性高,适用范围广,如果想要对网站或APP进行全面的渗透测试服务安全评估的话,可以向网站安全公司或渗透测试公司寻求服务。

    1.1K30发布于 2021-07-15
  • 推荐系统评估、偏见与算法解析

    某中心在RecSys:评估、偏见与算法某中心学者Pablo Castells分享他在推荐系统研究中观察到的趋势。 会议:RecSys 2021与计算机视觉或自然语言处理等会议不同,ACM推荐系统会议(RecSys)具有鲜明的互联网时代特征。 虽然我长期从事学术研究,但推荐系统问题完全可以从数学角度抽象处理,并通过小数据实验进行探索。”Castells认为当前领域特别关注三大主题:评估“如何确定推荐系统是否正常运行? 这在生产系统中通过A/B测试等在线评估已充满挑战,离线评估则更为困难。最新趋势认为推荐系统的客户不仅包括终端消费者,还应包含提供推荐服务的卖方。因此算法效果需要从不同利益相关方的多维度视角进行衡量。” 即使针对特定用户,推荐系统性能的衡量也非易事。“推荐系统的有效性不仅在于准确预测用户喜好,更在于提供的内容是否实用。实用性取决于上下文环境和使用目的——收听熟悉音乐与发现新音乐的价值标准就截然不同。

    25210编辑于 2025-10-11
  • 来自专栏GIS与遥感开发平台

    分类模型的评估指标 | 混淆矩阵(2

    遥感影像分类评估 书接上回,今天我们来看一看遥感影像分类是如何进行评估的。 01 概念 首先我们先了解一下什么是遥感影像分类。 对遥感影像分类结果进行评估就是一个通过比较检验样本与分类结果的符合程度来确定分类准确度的过程。 02 精度与准确度 在刚刚的概念中我们也了解到,评估是确定分类准确度的一个过程。 2 ---结果 kappa系数的计算结果处于(-1,1)之间,但一般情况下其结果处于(0,1)之间,且可分为五个级别来表示一致性: (0,0.2】表现为极低一致性; (0.2,0.4】表现为一般一致性; =20/(20+5+2)≈74% 3 ---用户精度 user accuracy=20/(10+10+20)=50% 4 ---错分误差 commission error =(10+10)/40 =1 -user accuracy=50% 5 ---漏分误差 omission error =(5+2)/27 =1-producer accuracy ≈26% 6 ---kappa系数 Po=0.53

    3.5K30编辑于 2022-04-29
  • 来自专栏气象学家

    气象数据质量评估系统改版升级

    自信息中心气象数据质量评估系统业务化上线以来,已逐步实现了对全球及国内地面、海洋、高空、飞机报等50余项要素的实时质量评估,提升了气象数据质量甄别和监视能力。 针对业务需求,基于天擎原生技术框架和资源支撑,气象数据质量评估新版系统采用Spring Cloud和VUE3前后端分离技术架构,利用Leaflet二维的WebGIS框架,通过评估算法优化、缓存、数据压缩等技术 按照地球系统多圈层分类划分,对评估数据实现了及时性、完整性、数据质量、数据一致性的业务组件构建,形成了新版的“地球系统数据质量评估系统”,目前已接入四个圈层13类数据。 同时,“地球系统数据质量评估系统”新增了对WIS2.0地面数据、铁塔数据、环保部空气质量数据的实时质量评估功能。 作者:王丽霞 校稿:赵煜飞 审稿:廖捷 END 声明:欢迎转载、转发。

    7810编辑于 2026-03-25
  • 来自专栏FreeBuf

    OpenVAS开源风险评估系统部署方案

    OpenVAS,即开放式漏洞评估系统,是一个用于评估目标漏洞的杰出框架。 它的评估能力来源于数万个漏洞测试程序,这些程序都是以插件的形式存在。 我的linux系统版本号如下: ? ? 虚拟机的网络连接方式如下,设置为桥接模式,设置为NAT。 ? 安装openvas过程 1. 更新软件包列表: apt-get update ? 2. 绿骨安全助手 GSA( Greenbone Security Assistant)是开放漏洞评估系统 OpenVAS(OpenVulnerability Assessment System)的基于网页的用户图形界面 2.脚本的方式 需要三个脚本控制开启和关闭openvas, /etc/init.d/openvas-manager //管理manager服务 /etc/init.d/openvas-scanner

    3.5K70发布于 2018-02-24
  • 来自专栏机器学习算法工程师

    《机器学习》笔记-模型评估与选择(2

    对于自己,经历了一段时间的系统学习(参考《机器学习/深度学习入门资料汇总》),现在计划重新阅读《机器学习》[周志华]和《深度学习》[Goodfellow et al]这两本书,并在阅读的过程中进行记录和总结 2 评估方法 通常,我们可以通过实验测试来对学习器的[泛化误差]进行评估,并进而做出选择。 我们假设测试样本是从样本真实分布中[独立同分布]采样而来。 ,从而降低了评估结果的保真性。 交叉检验中的“留一法”使用的训练集与初始化数据集相比只少了一个样本,这就使得在绝大多数情况下,留一法中被实际评估的模型与期望评估的用D训练出的模型很相似。因此,留一法的评估结果往往被认为比较准确。 另外,留一法的评估结果也未必永远比其他评估方法准确。 自助法 2.3 我们希望评估的是用D训练出的模型。

    1.3K60发布于 2018-03-06
  • 来自专栏音视频技术

    在DropboxEdge网络上评估BBRv2

    在2017年发布的博客文章“优化web服务器以实现高吞吐量和低延迟”中,我们评估了BBRv1在我们的edge网络上的拥塞控制的效果,结果显示它非常棒: 在2017年BBR实验期间桌面客户端的下载带宽 自从那以后 保持内核最新 较新的内核通常会给所有子系统带来相当大的改进,包括TCP/IP栈。 保持用户空间最新 如果您使用的内核版本比操作系统绑定的版本要新,那么拥有最新版本的用户空间是非常重要的。特别是像ethtool和iproute2这样的软件包。 仔细观察其中一些连接并没有发现任何明显的模式:数据包丢失大得离谱的连接来自不同的操作系统(基于时间戳/ECN支持)、连接类型(基于MSS)和位置(基于RTT)。 下面是一个工作经历中的例子:让我们使用bpftrace来测量加入qdisc的数据包和从qdisc中退出队列的数据包之间的差异: |qdisc-fq.bt是Brendan Gregg撰写的《BPF性能工具:Linux系统和应用程序可观察性

    2.4K30发布于 2020-01-17
领券