引言上一篇中,我们了解了高质量数据集建设流程中至关重要的“需求调研”与“数据规划”两大环节,掌握了从现状摸底、场景拆解到供需确认的五步调研法,成功输出了高质量数据集清单;还深入学习了如何通过基本信息编目 、内容结构设计及生产加工要求的明确,为数据集制定出详尽的《目录建设标准》。 数据工程实施环节这一环节是将抽象的数据集清单转化为可直接支撑 AI 模型训练与业务应用的高质量数据资产的关键,重点涵盖数据采集、数据预处理、数据标注三大核心模块,通过全链路的工程化能力,确保数据从源头到交付的每一步都可控 、可追溯、高质量。 标注数据生成入库:已标注数据集沉淀为数据资产,可直接用于模型开发、训练、推理等环节,同时支持标注数据集导出到本地,满足灵活的应用需求。
下载数据集请登录爱数科(www.idatascience.cn) 该数据集包括目前适用于 PlayStation 4 的所有游戏。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源于Kaggle。
阅读大概需要21分钟 来自:夕小瑶的卖萌屋 今天发烧睡了一天T^T,刷了刷知乎,刷到了这个问题 知乎:如何打造高质量的机器学习数据集? ,尽早构造数据集迭代闭环 关于复杂NLP任务 什么是高质量 刚入坑的一些小伙伴可能会以为“高质量”=“超级干净”,于是为了追求“高质量”而疯狂的预处理,最后哭了╮(╯▽╰)╭。 这应该是做一个高质量数据集前首先要考虑的问题。 想想2015年的SNLI[1]、2016年的SQuAD[2]、2018年的GLUE[3], CoQA[4],再到如今的SuperGLUE[5], MRQA(https://mrqa.github.io) ,会让你感受到产出一个高质量的任务完成型对话数据集是一个很有挑战的工作,自己从头摸索的话可能到头来只会收获一脸懵逼╮( ̄▽ ̄””)╭ 所以面对一些比较复杂的NLP任务的时候,一定一定要记得先精读一下最新最权威的数据集的
数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):5208 标注数量 (xml文件个数):5208 标注数量(txt文件个数):5208 标注类别数:4 标注类别名称(注意yolo格式类别顺序不和这个对应,而以labels文件夹classes.txt为准):["cloth reflective 框数 = 7188 reflective_person 框数 = 7213 总框数:15831 使用标注工具:labelImg 标注规则:对类别进行画矩形框 重要说明:暂无 特别声明:本数据集不对训练的模型或者权重文件精度作任何保证 ,数据集只提供准确且合理标注 reflective_person为穿反光衣的人 reflective为反光衣 person为未穿反光衣的人 cloth为非反光衣 图片预览: 标注例子:
大数据文摘出品 编译:蒋宝尚 在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。 那么用于机器学习的开放数据集有哪些呢? 文摘菌给大家推荐一份高质量的数据集,这些数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。 首先,在搜索数据集时,在卡内基·梅隆大学有以下说法: 数据集不应混乱,因为你不希望花费大量时间清理数据。 数据集不应该有太多行或列,因此很容易使用。 数据越干净越好 —— 清洗大型数据集相当耗时。 https://catalog.data.gov/dataset/food-environment-atlas-f4a22 学校系统财务状况(School system finances):这里有美国学校系统财务状况的调查 https://archive.org/details/comma-dataset 城市景观数据集:记录50个不同城市的城市街道场景的大型数据集。
ASO L4 Lidar Snow Depth 50m UTM Grid V001 简介 该数据集包含根据机载光探测和测距仪(或称激光雷达)对地表高程的测量得出的 50 米网格雪深。 该数据集是由Airbomne Snow测量的50 m分辨率雪深度地图的集合 天文台(ASO),由联合成像光谱仪和扫描激光雷达系统创建 NASA/JPL。 扫描激光雷达使用测量雪深度 从雪中减去无雪网格海拔数据的差异测高方法- 覆盖网格海拔数据(Deems等人,2013).本次50 m网格雪深数据 数据集是根据原始3 m雪深测量结果汇总的,这些测量结果在 ASO L4激光雷达雪深3 m UTM网格数据集。 参数:降雪深度 平台:DHC-6、King Air 传感器:Riegl LMS-Q1560 数据格式:GeoTIFF、PNG 时间覆盖范围:2013 年 4 月 3 日至 2019 年 7 月 16 日
最近和几位企业数据负责人聊天,发现一个特别普遍的现象:很多公司听说要上AI,赶紧找供应商咨询"高质量数据集怎么建"。结果对方一看企业现状,直接劝退:"你们连数据治理都没做好,谈什么数据集? 高质量数据集:这是个"专用产品"高质量数据集是专门为AI模型训练设计的结构化数据产品。它不是简单的"干净数据",而是针对特定应用场景、经过系统化处理的"燃料"。 高质量数据集的特征:场景牵引(为某个具体的AI应用服务)高质量标注(数据打好了标签,模型才能学习)结构化格式(训练集、验证集、测试集分好了)数据增强(可能包含合成数据、增强数据)丰富元数据(记录数据来源 第三阶段:按需构建高质量数据集(解决"模型能不能训")只有在前两个阶段打好基础后,才适合针对特定AI场景建设数据集。这个阶段的核心目标是为AI模型训练提供高质量、可用的数据燃料。 我一直坚持一个观点:数据质量是企业的核心竞争力。而搞清楚数据治理、高质量的数据、高质量数据集的关系,是少走弯路、少花冤枉钱的关键。
编译:蒋宝尚 转载自:大数据文摘,未经允许不得二次转载 在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。 那么用于机器学习的开放数据集有哪些呢? 文摘菌给大家推荐一份高质量的数据集,这些数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。 首先,在搜索数据集时,在卡内基·梅隆大学有以下说法: 数据集不应混乱,因为你不希望花费大量时间清理数据。 数据集不应该有太多行或列,因此很容易使用。 数据越干净越好 —— 清洗大型数据集相当耗时。 https://catalog.data.gov/dataset/food-environment-atlas-f4a22 学校系统财务状况(School system finances):这里有美国学校系统财务状况的调查 https://archive.org/details/comma-dataset 城市景观数据集:记录50个不同城市的城市街道场景的大型数据集。
type ofwhite blood cells) s2 ldl, low-densitylipoproteins s3 hdl, high-densitylipoproteins s4 Source URL: https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html For more information see: Bradley 译文 糖尿病数据集 对442例糖尿病患者,分别获得了10个基线变量、年龄、性别、体重指数、平均血压和6个血清测量值,以及兴趣反应(基线后一年疾病进展的定量测量)。 **数据集特征:** 实例数:442 属性数:前10列是数值预测值 目标:第11列是基线检查后一年疾病进展的定量测量 属性信息: age 年龄(以年为单位) sex 性别 源URL: https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html 有关详细信息,请参见: BradleyEfron、Trevor Hastie
第五步:形成高质量数据集清单完成以上步骤后,根据数据的具备条件、需求频度,形成最终可以产出的高质量数据集清单。 数据规划环节该环节主要目标是完成高质量数据集的编目化及内容设计,基于筛选确认的高质量数据集清单,对每个数据进行分类分级、数据特征、标签、元数据、样例数据整理,编制数据集内容规范《高质量数据集目录建设标准 这里可以参考从0开始全面认识高质量数据集建设(1)中提到的建设指南和政策依据,规范包括:高质量数据集内容框架高质量数据集分类体系高质量数据集编目要求然后重点来了,针对于上述的高质量数据集清单,我们其实是可以进一步拆分分类的 ,比如说按照从0开始全面认识高质量数据集建设(1)中提到的可以拆分为通识类数据集、行业通识类数据集、行业专识类数据集,但是一般而言,内部建设智能体场景时,只有行业通识类数据集和行业专识类数据集。 :标签类别:事件类型标签(火灾、交通事故等)、事件等级标签(1-4级)、处置状态标签(待处置、处置中、已完成、已复核)、涉及资源标签(警车、消防车、救护车等)。
数据集编目上架数据集编目上架是将经过采集、预处理、标注等环节产出的高质量数据资产,进行标准化 “身份登记” 并纳入统一管理的关键环节。 管理信息(来处与去处)来源系统公安警情系统、消防接处警系统、120急救调度系统、应急管理局综合平台管理单位城市指挥中心数据管理科业务管理标签应急指挥、多部门融合、核心业务质量检测符合情况符合《城市指挥中心高质量数据集目录建设标准 数据集内容描述(内在结构)数据集格式结构化:JSON / CSV;多媒体:JPG、MP4结构描述核心字段:事件ID(唯一标识)、事件类型、发生时间、经纬度、事件等级、处置状态、责任单位、关联资源(警车/ 本环节以《高质量数据集 质量评测规范(征求意见稿)》为指导,从说明文档维度、数据质量维度、模型应用维度三大核心维度,对数据集进行全面体检,确保其满足 AI 模型开发、训练及业务场景的核心要求。 在《高质量数据集 质量评测规范( 征求意见稿) 》中,规范了以下三大检测维度:说明文档维度:要求数据集的说明文档完整,需包含基本信息、内容特征、建设过程及应用说明等内容。
引言 在软件测试中,测试数据的质量直接影响测试效果。高质量的测试数据能够帮助测试工程师发现更多潜在的缺陷,提升测试覆盖率,确保软件质量。 本文将深入探讨AI如何自动创建高质量的测试数据集,帮助测试工作者提升测试效率和质量。 让我们一起探索AI如何自动创建高质量的测试数据集。 要点 描述 互动 传统挑战 耗时耗力、覆盖不全、缺乏多样性 你在测试数据生成中遇到过哪些挑战? ├── 第六章:常见问题与解决方案 └── 第七章:未来发展与技能培养 第一章:测试数据的重要性与挑战 1.1 测试数据的重要性 测试数据是软件测试的基础,高质量的测试数据对测试效果有着决定性的影响: 第二章:AI辅助测试数据生成的原理 2.1 AI辅助测试数据生成的基本概念 AI辅助测试数据生成是指利用人工智能技术,特别是机器学习和深度学习技术,自动生成符合测试需求的高质量测试数据。
构建数据集 到目前为止,我们的数据质量可能在以下方面有一些改进: 清理数据 目前提取的数据可能有一些记录丢失了基本的数据信号。它们可以被安全地丢弃。 标准化 数据中可能存在一些属性,它们在所有记录中可能没有相同的含义。在这种情况下,我们需要使用我们的直觉(或一些基线)来标准化跨数据集的属性。 结构化 一旦我们确信我们所做的所有的预处理数据良好,剩下要做的最后一件事是将数据以一个共同的格式如CSV, JSON等新型结构化, 以便有兴趣使用数据集的人能够轻松地读取和导入数据。 结论 完成上述所有步骤后,数据中的记录可能如下: 1{ 2 "item_id": "507565", 3 "size": 12, 4 "quality": 5, 5 "cup 在此过程中,请记住本文的以下主要观点: 无论您是否考虑到特定的问题,请尝试识别数据集的EssentialData信号。这将指导数据集搜索过程。 结合来自多个数据源的数据,以提高数据集的有用性和质量。
然而,高质量的数据集若被束之高阁,便无法产生实际价值。只有当数据顺畅地流向需求方,并在业务场景中发挥作用时,其价值才得以真正释放。 那为什么数据集市这么重要?之前我们构造的数据仓库或者说高质量数据集文件不可以直接拿来用吗?可以是可以,但是不够便捷,不够规范! 在将数据集发布到数据超市之前,需要确保数据集已经完成了前面几步操作,保证数据集已经达到了高质量数据集的标准和质量要求,后面的发布过程,其实同普通数据集的上架是一致的了,主要包含如下几步:发布申请提交:数据提供方 (我方)在数据管理平台上提交数据集发布申请,填写发布信息;发布审核:数据管理部门对发布申请进行审核;数据集上架:审核通过后,数据集将被自动发布到数据超市,并生成唯一的数据集ID和访问链接。 上架后,数据集将在数据超市中展示;发布后管理:数据集发布后,数据提供方需要进行持续的管理和维护。
但是这里我想说的是,在高质量数据集建设这个事情上不一样。第一,数据的质量不是天然形成的,而是设计出来的。 过去企业做业务系统,数据是业务的副产品,有就用、没有就算了。 但高质量数据集不同,它要求数据具备场景适配性、多模态融合能力与AI可训性,这些特性不可能靠自然积累获得,必须从源头规划数据采集标准、标注规范、质量评估体系。 但在"人工智能+"时代,数据是核心生产要素,高质量数据集是基础设施。基础设施能不能建好,决定了企业未来五到十年的竞争力。这笔账,值得好好算一算。 在功能方面,基本需要覆盖以下三大能力:数据集生产工具链数据集综合管理数据集服务接口第四,从"有数据"到"有好数据"平台建好了,标准也有了,接下来就是真刀真枪地生产高质量数据集。 因为在这个人工智能+的时代,谁掌握了高质量数据,谁就掌握了未来的主动权。至于具体做法对不对,欢迎大家批评指正。毕竟高质量数据集建设这事儿,全行业都还在探索,没有标准答案,只有不断试错、不断迭代。共勉。
导读 今天,“计算机视觉”给大家介绍一个新的大型目标检测数据集Objects365,它拥有超过600,000个图像,365个类别和超过1000万个高质量的边界框。 摘要先前看 Objects365可用作更好的特征学习数据集,用于对位置敏感的任务,例如目标检测和分割。 今天我们分享的将进一步介绍了一种新的大规模、高质量的目标检测数据集Objects 365,主要集中在三个方面:规模、质量和泛化。 ? 02 ? 这个注释管道保证了高效率获得高质量的注释。 新的Objects365数据集直接解决了上述两个问题,并为特性学习提供了更好的选择。
因此,让我们开始看看如何识别、抓取和构建一个高质量的机器学习数据集。 本文的重点是解释如何通过实际示例和代码片段构建高质量的数据集。 在整篇文章中,我将引用我收集到的三个高质量的数据集,分别是服装尺寸推荐Fit数据集,新闻类数据集,讽刺检测数据集来解释各个点。为了做好准备,接下来我将简要解释每个数据集的内容。 如果你希望收集和构建一个高质量的数据集,你可能会遇到以下两种情况之一: 你正在寻找能够解决特定问题的数据集。(问题已知) 你正在寻找可用于解决有趣问题的数据集。 如果找不到单个数据源,请查看是否可以将多个数据源的数据组合起来构建数据集:讽刺检测数据集是将多个数据源的数据组合起来构建完整且高质量数据集的完美示例。 这与问题已知部分的第4点相同。 预测结果有什么重要的意义或应用吗?高质量数据集的另一个标志是,它可以用来解决有趣的和实际的问题,或者能够对一些现象提供有趣的见解。
本数据集使用3D LiDAR扫描仪收集的大型全环绕3D多目标检测和跟踪数据集。其包含160个拥挤且高度互动的交通场景,在27,721帧中共有100万个标记实例。 该数据集由140万张图像、39万次激光雷达扫描和140万个3D人工注释边界框组成,是迄今为止公布的最大的多模态3D 无人驾驶数据集。 ? 大型数据集,包含从50个不同城市的街景中记录的各种立体视频序列,高质量的像素级注释为5000帧,另外还有一组较大的20000个弱注释帧。因此,数据集比先前的类似尝试大一个数量级。 该立体数据集是从移动的车辆记录的,并且包含高分辨率立体图像,其补充有从IMU,GPS数据和来自汽车计算机的数据获得的定向和加速度数据。 用8个高分辨率摄像头录制的4个视频序列安装在一辆面包车上,总计超过3个小时,带有交通标志注释,摄像机校准和姿势。大约16000张背景图片。
引言也是许久没有更新文章了,这段时间一直在忙科研和学术类的事宜,研究AI4S的内容,成果也颇为显著,后续计划也会做一些分享,主要分享如何把自己的项目成果转化为软著、专利、论文之类的以及基于这些成果如何去申报省级 建设标准:2025年陆续推出相关标准草案《高质量数据集分类指南》(TC609-5-2025-03)是由全国数据标准化技术委员会发布的技术文件,旨在为高质量数据集提供一套清晰、统一的分类体系与方法,以解决当前高质量数据集分类标准缺失 《高质量数据集格式要求》(TC609-5-2025-02)是由全国数据标准化技术委员会发布的技术文件,旨在为高质量数据集提供统一的元数据格式规范,以解决数据集格式不规范、不统一的问题,促进数据集的可读性 什么是高质量数据集在项目实践中,我经常被问到:"到底什么是高质量数据集?"这个问题看似简单,实则涉及多个维度的考量。 高质量数据集分类及特征高质量数据集大致可以分为三大类,分别是通识数据集、行业通识数据集和行业专识数据集。
总体架构总体架构图基本示意图如下:一套标准,完善内部“高质量数据集”的标准规范根据上一篇文章中提到的《高质量数据集目录建设标准》、《高质量数据集质量管理标准》、《高质量数据集服务使用规范》、《高质量数据集管理制度 》,需要逐步构建起自己内部的高质量数据集标准规范,主要阶段及依据如下图所示:标准规范示例格式如下:展开代码语言:TXTAI代码解释1范围2规范性引用文件3术语和定义3.1模型3.2高质量数据集3.3元数据 3.4值域3.5数据标注4高质量数据集总体定义4.1高质量数据集内容框架4.2高质量数据集分类体系4.3高质量数据集分级要求4.4高质量数据集编目要求5行业通识数据集5.1XX数据集15.1.1基本信息 +高质量数据集特有属性高质量数据集目录的建设,并非是简单罗列数据集名称,而是包含信息资源分类分级属性+高质量数据集特有属性两大部分。 一套工具,围绕数据集目录建设,工具支撑生产、管理及服务业务流程开展高质量数据集的管理与应用不再依赖人工经验,而是通过高质量数据集管理子系统实现全流程数字化、标准化管控。