首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 第七章 AI数据质量-5

    7.7 基于智能硬件的数据采集及标注方案 7.6章节提到的无论是基于数据增强及AI合成数据还是基于3D渲染生成数据,都存在真实性不足的问题:生成数据可能与真实数据存在差异,从而影响模型的泛化能力。 成本收益 (1)采集阶段的收益:采集场景上,我们每次以5度为单位,高度范围为90度,左右转动为90度,俯仰为60度,则最多一轮可采集90/5*90/5*60/5= 3888张。 人工采集的方式,我们以平均耗时5秒采集一张计算,共需要5.4小时。通过机械臂的自动化采集方案,大约2秒一张,共约2.16小时。采集时长缩短一半,效率得到的很大的提升。 图7-32 基于机械臂的证件样本自动化采集方案的收益 7.9 总结 本章我们首先介绍了数据在AI算法整个生命期中的重要性,接着介绍了AI数据的采集流程和采集量及其质量的评估。 下一章节,我们将进入AI模型质量的评估和测试环节。

    46710编辑于 2025-04-15
  • 来自专栏生信技能树-R

    转录组数据质量控制(数据质量评估,过滤低质量

    数据质量评估软件Fastqc图片(rna) Mar402 20:38:07 ~/project/Human-16-Asthma-Trans/data/rawdata #-t 6 同时对这6个文件进行质控 _1.fastq.gzapplication/gzipapplication/gzipapplication/gzipapplication/gzipApprox 5% complete for SRR1039510 .fastq.gzAnalysis complete for SRR1039510_1.fastq.gzStarted analysis of SRR1039510_2.fastq.gzApprox 5% fastqc后报告结果带有fastqc结尾的文件,html为主要质控报告,网页版本,使用浏览器打开;zip里面是表格或者图片等·解压 *.fastqc.zip 得到pic1图片将质控报告下载至本地图片图片数据量统计方式图片数据质控 %Dups只要不超过80%即可图片图片图片图片图片过滤低质量是否需要过率低质量主要看--per base N content、sequence quality Histograms 、adapter content

    2.1K10编辑于 2023-04-19
  • 来自专栏数据狗说事儿

    政务数据质量管理提升的5个最佳实践

    解决问题:之前做某区数据治理项目时人口库的建设就涉及到了这一数据质量问题,为保证数据质量一致性原则,进行了调研,针对不同类型人员、不同类型信息进行了信息取值优先级的设定,整合成了一份数据质量相对较高、较为稳定的人口数据 解决问题:要整改历史数据质量差的问题,首要是发现问题。 在某政数局数据治理项目上,通过收集国标、行标的元标准,配置进亿信华辰睿治数据质量模块质检规则模块,定期对各部门系统的数据库表进行数据质量的检查,产出数据质量报告提供给各部门,协助定位问题数据,为他们整改数据提供了有利依据 上述实践案例都离不开亿信华辰睿治数据治理平台,其提供数据质量管理模板,以数据标准为数据检核依据,以元数据数据检核对象,通过向导化、可视化等简易操作手段,将质量评估、质量检核、质量整改与质量报告等工作环节进行流程整合 ,形成完整的数据质量管理闭环。

    70610编辑于 2022-09-21
  • 来自专栏木东居士的专栏

    数据质量监控

    而且,数据质量数据分析和数据挖掘结论有效性和准确性的基础,也是这一切的数据驱动决策的前提!如何保障数据质量,确保数据可用性是每一位数据人都不可忽略的重要环节。 数据,最终是要服务于业务价值的,因此,本文不会单纯讲解理论,而是会从数据质量监控这一数据的应用为出发点,为大家分享居士对数据质量的思考。 通过本文,你将获得如下几方面的知识点: 数据质量核心关注的要点 从数据计算链条理解,每一个环节会出现哪些数据质量问题 从业务逻辑理解,数据质量监控能带来的帮助 实现数据质量监控系统时要关注的点 数据质量监控面临的一些难点和解决思路 0x02 数据处理各环节的数据质量 数据质量监控之所以难做,是因为在数据的各个环节都会出现数据质量的问题。因此,本节将以一个典型的数据处理链条为例,为大家分享在每个阶段容易出现哪些数据质量问题。 0x04 如何实现数据质量监控 前面分享了数据质量关注的点,以及从技术和业务角度会如何关注数据质量,本节将简单地分享一下如何实现数据质量监控。这里将分两个角度:宏观的设计思路和技术实现思路。

    6.5K94发布于 2019-04-24
  • 来自专栏木东居士的专栏

    数据质量监控

    本篇分享一些和数据质量监控相关的内容。数据质量监控是一个在快速发展的业务中最容易被牺牲和忽略的功能,但是它确实至关重要的。 文章结构 数据质量监控的意义和价值就不再谈了,本文主要讨论下面三个主题: 数据质量监控要做哪些监控内容 该怎么做 数据校验 文中会涉及到数据仓库其它的一些知识点,请参考之前的文章。 0x01 什么值得你监控 我把数据质量分成三部分来理解: 监控 告警 多数据源 重点在监控,这点会展开来讲,多数据源这一块是因为在大数据场景下,我们有太多的开源组件来选择,很多组件的数据都需要监控,而且每个都不一样 执行引擎:要来执行各种规则,同时要考虑各种数据源的差异。 元数据系统:数据质量监控本来也算是元数据系统的一部分,我们这分开来讲,但是无论如何,在配置表的告警信息时,还是要和元数据系统结合的。 ? 0x03 数据校验 数据校验之前是没在意的,现在把这一块补进来。比较偏个人理解,暂时还没形成完整的知识体系。主要就是说如何判断自己的数据是正常的、可以被信任的,这一块在数据质量中应该是十分重要的。

    3.4K60发布于 2018-05-25
  • 强化数据质量

    强化数据质量和来源控制- **数据筛选**:在训练大模型之前,应严格筛选和清洗数据,去除或标记不准确、有偏见或不真实的数据。 - **可靠来源**:优先使用来自可靠来源的数据,如经过同行评审的学术文章、官方报告等。### 2. ### 5. 制定和遵守伦理准则- **伦理准则**:制定明确的伦理准则,指导大模型的开发和使用,特别是在处理可能产生虚假信息的场景时。 - **持续学习**:根据用户反馈和新数据,不断更新和优化模型,以提高其输出的准确性。### 结论虽然大模型在处理和生成信息方面具有巨大潜力,但它们也带来了生成虚假信息的风险。

    30600编辑于 2024-11-14
  • 来自专栏韩锋频道

    数据质量”入门

    数据质量理论部分 1 相关概念 【数据质量数据的一组固有属性满足数据消费者要求的程度。 【数据质量管理】 数据质量管理,是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高 5).确定根本原因 在纠正数据问题之前要先确定其根本原因,产生问题的根源有很多。 2 处理问题流程 确定规则:数据质量指标 发现问题:数据质量检核 提出问题:质量问题告警 解决问题:质量问题分析 归纳问题:问题管理流程 3 主要功能模块 1).质量评估 提供全方位数据质量评估能力,如数据的重复性 5).质量报告 系统提供了丰富的API可进行定制化数据质量包括开发,另外系统内置了常用质量报告。 6).质量分析 提供多种问题分析能力,包括血统分析,影响分析,全链分析,定位问题产生的根源。

    1.5K21发布于 2019-07-16
  • 【能力比对】数据质量管理VS数据质量平台

    一、数据质量管理VS数据质量平台能力对比 1.1 数据质量管理-功能描述 AIIData数据中台数据质量管理,提供了全面的数据质量管理功能,包括数据质量报告统计、创建和执行质量任务、新增质量规则以及定时执行任务的设置等 1.2 数据质量平台-功能描述 AIIData数据中台的数据质量平台,基于开源项目DataVines构建,实现全流程质量闭环管控。 3.1.4 数据源支持 3.1.5 数据质量支持 3.2.1 数据质量平台-功能定位 数据质量平台(DataVines)是一款自动化数据质量检测与治理工具,通过技术手段实现数据质量规则配置、监控、问题告警与修复建议 3.2.2 数据质量平台-功能特点 ● 轻量化与开源生态作为一站式开源数据可观测性平台,数据质量平台(DataVines)具有低依赖性、易于部署的特点,支持快速搭建数据质量监控体系。 五、 应用场景适配数据质量管理在跨部门协作场景中(供应链数据共享),需明确数据所有者、生产者、消费者职责。通过数据质量管理模块,可定义数据质量规则的责任人,并设置跨部门协作流程。

    55110编辑于 2025-05-06
  • 来自专栏数据科学与人工智能

    数据质量是什么

    数据质量是对数据在特定应用场景下服务商业目的适应性的评估/评价。 数据质量包括这些方面: 准确性 完整性 时效性(更新状态) 关联性 一致性 可靠性 合理表示 可以访问 在一个公司或者组织内,可接受的数据质量对于运营或者事务处理或者商业分析/商业智能报告的可靠性至关重要 数据质量数据产生/存储/管理的影响。数据质量保证是验证数据可靠性和有效性的过程。 要保证数据质量,需要定期查看和清理数据,通常这包括数据更新/标准化/删除重复记录以创建单个数据视图。 想加入数据人圈子,请加微信luqin360。 文章推荐: 人工智能系列文章 1 人工智能三大应用场景 2 人工智能政策 3 人工智能研究的中国力量 图片赏析: 数据质量管理

    1.9K50发布于 2018-02-28
  • 来自专栏程序你好

    什么是数据质量

    4、准确性:数据是准确的,还是过时的 5、重复:数据记录或属性在不应该重复的地方是重复的吗 6、完整性:数据是可引用的还是缺少约束 定义数据质量的主要特征有两个 1、数据可用性 例如,关于客户年龄或位置的数据可能有助于消费品行业的客户保留计划。但是,关于客户地点的天气或土壤质量数据可能无法用于这种保留活动。然而,这些天气或土壤质量数据可能对花卉行业的目标客户有用。 这些问题可以帮助我们决定驱动数据质量计划所需的工具和技术。 手动检查数据以确保适合使用是确保数据质量的最佳方法。当数据量太小时,这是可能的。然而,鉴于我们目前拥有的数据量,仅仅依靠手工处理是太高了。 为了消除人为错误和减少数据不准确,我们不得不依赖于各种技术和技术。我们需要遵循数据质量策略来保证数据的高质量5、监视:持续访问和评估数据以确保其符合目的的过程。 6、 充实:通过使用来自各种内部和外部来源的数据来提高数据质量的过程。

    1.3K10发布于 2018-08-21
  • 从0开始全面认识高质量数据集建设(5

    数据集编目上架数据集编目上架是将经过采集、预处理、标注等环节产出的高质量数据资产,进行标准化 “身份登记” 并纳入统一管理的关键环节。 数据集符合性检测环节数据集编目上架后,并非直接进入可用状态,还需经过严格的符合性检测,这是保障数据质量、避免 “垃圾进、垃圾出” 的最后一道质量闸门。 本环节以《高质量数据质量评测规范(征求意见稿)》为指导,从说明文档维度、数据质量维度、模型应用维度三大核心维度,对数据集进行全面体检,确保其满足 AI 模型开发、训练及业务场景的核心要求。 在《高质量数据质量评测规范( 征求意见稿) 》中,规范了以下三大检测维度:说明文档维度:要求数据集的说明文档完整,需包含基本信息、内容特征、建设过程及应用说明等内容。 数据质量维度:聚焦数据本身的内在质量,确保数据满足 AI 模型开发和训练的基本要求,是检测的核心环节。模型应用维度:数据集应能有效支撑目标场景人工智能模型的开发和训练。

    48110编辑于 2026-02-19
  • 来自专栏数据工人

    每个CMDB系统都存在的5数据质量问题

    CMDB的好坏取决于其数据质量。不幸的是,大多数CMDB都充满了过时的、不一致的或不完整的数据。 CMDB在组织里起到非常关键的作用,比如: IT资产管理和软件资产管理(?) 阅读这篇文章,了解每个CMDB都会遇到的5数据质量问题,学会如何处理它们。 01 为什么干净的数据对CMDB至关重要? 组织的很多智能都依赖CMDB拥有的干净数据。 同样,没有全面的硬件数据,支持工程师可能无法快速排除其上的问题。 根据Gartner公司的研究,有40%的业务计划失败、没有达成预期目标,主要原因是数据质量差。 然而,查看为CMDB提供数据数据源,我们就可以得出一些关于数据是否干净的可能性结论。 ? 图1:CMDB中的数据来源于多个数据源 坏消息:数据不好看。 不管CMDB的设计和实现有多好,以下几个因素都影响着每个CMDB的数据质量: IT数据源:数据源是不包含关于资产各方面信息的IT系统。

    1.3K81发布于 2020-05-22
  • 来自专栏大数据成神之路

    所谓的数据质量

    导读:随着大数据行业的深入发展,数据质量越来越成为一个绕不开的话题,那当大家在聊数据质量的时候,通常会聊什么呢?从什么是数据质量开始。 ? 数据质量:一个评估规则维度提供一种测量与管理信息和数据的方式。 数据质量检核主要分为以下规则维度: 完整性(Completeness):用来描述信息的完整程度。 唯一性(Uniqueness):用来描述数据是否存在重复记录,没有实体多余出现一次。 数据数据质量的提升不是一蹴而就的,在清楚了解评估每一维度所需工作的情况下,选择那些当前较为迫切的检核维度和规则,从易到难、由浅入深的逐步推动数据质量的全面管理与提升。 对待这种情况,数据质量规则没办法直接统一处理,只能通过即使查询的方式对数据结果进行详细核查。 ? 及时性约束:描述检核数据能否及时反映其对应的实际业务的时点状态。

    2.2K20发布于 2021-06-01
  • 来自专栏程序猿~

    数据中台 - 数据质量维度

    在做数据中台-数据质量的过程中,通过调研方法论,可以对数据质量技术类校验类型划分6大维度,这些维度如下: 数据质量6大技术质量维度 方法论依据: 数据资产管理实践白皮书4.0 质量维度 质量维度描述 表级内置 列级内置 完整性 数据是否缺失 表数据行数 字段为null或空字符串 规范性 数据是否按照要求的规则存储 身份证校验 邮箱校验 IP地址校验 电话格式校验 邮编格式校验 日期格式校验 空值或空字符串校验 数值格式校验 一致性 数据的值是否存在信息含义上的冲突 准确性 数据是否错误 字段平均值 字段汇总值 字段最大值 字段最小值 唯一性 数据是否是重复的 字段唯一值 字段重复值 时效性 数据是否按照时间的要求进行上传 前一天数据行数 《数据资产管理实践白皮书4.0》网上即有资源,如需使用,可以私聊。

    76020发布于 2021-01-29
  • 来自专栏BigDataplus

    数据质量数据治理的核心

    数据质量控制方法论 提升数据质量需获取管理层的重视,在推动数据质量管理机制的建立,数据质量检测系统实现,数据质量文化的构建等方面,能获取更多资源。 数据管理者 制定数据质量标准和数据管控考核,分析数据质量问题和数据质量迭代整改计划制定和推动,数据使用的管理等等。 3.数据质量的检测和量化 数据质量检测系统 “工欲善其事,必先利其器”需对数据质量进行测量,就需要数据质量检测系统。 5.构建注重数据质量文化 数据是企业成功的关键,因为它提供了企业决策的基础,成功执行数据质量流程需要一个治理结构(数据管理、数据质量问责制、倡导改善项目)。 从数据质量系统设计和实现,再加上数据质量控制方法论,本文算是对数据质量问题有个较为完整的讲解。

    2.6K30编辑于 2022-04-25
  • 来自专栏计算机视觉战队

    人脸专集5 | 最新的图像质量评价

    IQA methods for image inpainting 图像修复的难点之一是质量评估。其主要原因是主观评价的模糊性和获取培训数据的成本。 由于评估修复图像的质量与评估其他劣化图像是一项非常不同的任务,该方法设计了新的图像特征,专门用于评估修复的图像。此外还表明,利用两两学习特征,可以自动生成训练数据,并利用这些数据提高估计精度。 上图显示了测试过程,其中重复了三项任务:(a) 盯着黑色背景上的白色十字架两秒钟来修正他们的初始观点,(B) 观察10秒图像,(C) 提供5份意见分数来表示图像质量的不自然。 分数1-5分别对应于非常显著的、相当明显的、略显的、几乎不明显的和不明显的。分数越高越好,因为它们表明修复过程中发生的不自然现象是不明显的。 这种失真图像和原始图像的几个级别产生训练数据,假设增加失真会减少偏好。 ? 当然,原始图像比畸变图像具有更好的质量

    2.1K30发布于 2019-05-06
  • 来自专栏SAP升级

    5 大 ERP 迁移难题怎么破?数据质量 合规风险规避方法

    ERP迁移是指战略性地将数据从企业的主要数据源迁移至新的ERP系统,它并非简单的文件转移。为确保工作流的持续性和信息检索效率,企业需要准确迁移所有相关ERP数据。 尽管存在许多变量因素需要处理,但这些复杂性均可以克服,尤其是当企业清楚了解那些常困扰实施团队的问题时:数据质量: 冗余、陈旧、无效或过时的内容都会在后续产生连锁反应,引发各种问题,削弱洞察质量。 鉴于新的ERP系统将成为企业的统一真实数据源,因此建议精准筛选需要迁移的数据。如果全盘复制所有数据,后续很可能会出现混乱或错误。各部门应对数据进行深入彻底的评估,避免将无效数据迁入新数据库,占用空间。 谨慎映射数据字段数据流图能帮助企业识别数据不一致的情况并实现自动化迁移。为此,企业需要将数据从源平台和源解决方案映射到新 ERP系统的架构中。 应给予 ERP实施团队充足的时间,让他们深入了解数据、标记异常问题,并将数据转换为适合新系统的格式。确定数据治理框架在迁移前,企业必须明确各类数据的负责人。

    21710编辑于 2025-10-27
  • 来自专栏生信小驿站

    R 数据质量分析①

    数据质量分析 数据质量分析是数据挖掘中数据准备的最重要一环,是数据处理的前体。数据质量分分析主要任务是识别脏数据。 常见的脏数据包括: 缺失值 异常值 不一致的值 重复数据或者包括特殊符号的数据 缺失值处理 处理数据缺失的一般步骤: 识别缺失数据 检测导致数据缺失的原因 删除包含缺失值的实例或用合理的数值代替(插补) 1、识别缺失数据: R语言中,NA代表缺失值,NaN代表不可能值,Inf和-Inf代表正无穷和负无穷。推荐使用is.na,is.nan,is.finite,is.infinite4个函数去处理。 is.na(a) 日期 销量 [1,] FALSE FALSE [2,] FALSE FALSE [3,] FALSE FALSE [4,] FALSE FALSE [5, 缺失值处理 行删除法:数据集中含有缺失值的行都会被删除,一般假定缺失数据是完全随机产生的,并且缺失值只是很少一部分,对结果不会造成大的影响。即:要有足够的样本量,并且删除缺失值后不会有大的偏差!

    1.4K10发布于 2018-08-27
  • 来自专栏Python使用工具

    提高数据质量的步骤

    提高数据质量的步骤在进行数据分析和建模之前,数据清洗与预处理是至关重要的步骤。通过清洗和预处理数据,我们可以去除噪声、填补缺失值、处理异常值等,从而提高数据质量,确保后续分析的准确性和可靠性。 本文将介绍数据清洗与预处理的关键步骤,并分享一些实用的代码示例,帮助您掌握数据清洗和预处理的技巧,提高数据质量,为后续分析奠定坚实基础。第一部分:数据清洗的关键步骤1. 数据审查:- 进行初步的数据审查,了解数据集的基本信息,包括列名、数据类型、缺失值情况等。2. 处理缺失值:- 使用合适的方法填补缺失值,如均值、中位数、众数等,或根据上下文进行插值处理。 数据类型转换:- 将数据转换为合适的数据类型,例如将字符串转换为数字、日期等,以便后续分析和建模。 掌握数据清洗与预处理的技巧,能够为后续的数据分析和建模提供高质量数据基础。希望本文对您在数据清洗与预处理方面的学习和实践有所帮助,祝您在数据分析的道路上取得成功!

    68041编辑于 2023-10-08
  • 来自专栏社区的朋友们

    请拿数据质量

    一般来说,建议从质量数据相对稳定的产品开始,要确保指标数据能正确指导产品质量提升方向,如果指标数据波动较大,指标度量数据就无意义了。在建设过程中,指标建设Owner需要了解产品关键功能是什么? ; (5)度量指标数据稳定; (6)度量方案报团队质量leader审批。 建立质量日报,度量月报,让数据能有效、客观的展现出来,一目了然发现产品质量哪些地方需要提升,同时制定异常数据响应机制。 例如开发质量之星、质量先峰、质量达人、质量小能手进行奖励,同时也会对质量数据月度考核等。核心点就是通过考核,设立标杆的方式来引导指标提升,补齐质量短板。 ; (4)制定各项激励机制重点(例如问题响应速度,指标数据上报准确率、质量指标完成率、额外提升加分等); (5)当原有指标已满分,需要重新考虑提升方向和重点,确保产品的质量一直有努力方向。

    1.1K20发布于 2017-12-07
领券