“潜在高质量数据集”,并厘清各部门在其中扮演的供给方与需求方角色,明确权责关系。 第五步:形成高质量数据集清单完成以上步骤后,根据数据的具备条件、需求频度,形成最终可以产出的高质量数据集清单。 数据规划环节该环节主要目标是完成高质量数据集的编目化及内容设计,基于筛选确认的高质量数据集清单,对每个数据进行分类分级、数据特征、标签、元数据、样例数据整理,编制数据集内容规范《高质量数据集目录建设标准 这里可以参考从0开始全面认识高质量数据集建设(1)中提到的建设指南和政策依据,规范包括:高质量数据集内容框架高质量数据集分类体系高质量数据集编目要求然后重点来了,针对于上述的高质量数据集清单,我们其实是可以进一步拆分分类的 ,比如说按照从0开始全面认识高质量数据集建设(1)中提到的可以拆分为通识类数据集、行业通识类数据集、行业专识类数据集,但是一般而言,内部建设智能体场景时,只有行业通识类数据集和行业专识类数据集。
阅读大概需要21分钟 来自:夕小瑶的卖萌屋 今天发烧睡了一天T^T,刷了刷知乎,刷到了这个问题 知乎:如何打造高质量的机器学习数据集? ,尽早构造数据集迭代闭环 关于复杂NLP任务 什么是高质量 刚入坑的一些小伙伴可能会以为“高质量”=“超级干净”,于是为了追求“高质量”而疯狂的预处理,最后哭了╮(╯▽╰)╭。 这应该是做一个高质量数据集前首先要考虑的问题。 想想2015年的SNLI[1]、2016年的SQuAD[2]、2018年的GLUE[3], CoQA[4],再到如今的SuperGLUE[5], MRQA(https://mrqa.github.io) ,会让你感受到产出一个高质量的任务完成型对话数据集是一个很有挑战的工作,自己从头摸索的话可能到头来只会收获一脸懵逼╮( ̄▽ ̄””)╭ 所以面对一些比较复杂的NLP任务的时候,一定一定要记得先精读一下最新最权威的数据集的
机器之心报道 作者:蛋酱、小舟 众所周知,对于 Llama3、GPT-4 或 Mixtral 等高性能大语言模型来说,构建高质量的网络规模数据集是非常重要的。 这项工作将原始 15 万亿个 FineWeb token,经 Llama 3 70B 评判,过滤为 1.3 万亿个高质量(教科级)token。 事实证明,LLM 从教育内容中学习会更好更快。 在对应的长篇报告中,团队深入探讨了如何创建一个用于 LLM 预训练的大型高质量网络规模数据集,并讨论了大规模数据质量的处理和评估、FineWeb 配方(列出并解释了所有的设计选择)以及创建 FineWeb-Edu 同样,Llama 3 博客文章也指出: 我们发现,前几代 Llama 擅长识别高质量数据,因此我们使用 Llama 2 来帮助构建文本质量分类器,为 Llama 3 提供动力。 阈值为 3 时,模型在验证集上的 F1 得分为 82%,这表明它在区分高质量教育内容方面表现出色。 最后,团队进行了消融研究。
https://github.com/niessner/Matterport Matterport3D ? The Matterport3D V1.0 dataset contains data captured throughout 90 properties with a Matterport Pro Camera Paper Matterport3D: Learning from RGB-D Data in Indoor Environments If you use the Matterport3D data or code please cite: @article{Matterport3D, title={{Matterport3D}: Learning from {RGB-D} Data in Indoor Vision (3DV)}, year={2017} } Data The dataset consists of several types of annotations: color and
大数据文摘出品 编译:蒋宝尚 在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。 那么用于机器学习的开放数据集有哪些呢? 文摘菌给大家推荐一份高质量的数据集,这些数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。 首先,在搜索数据集时,在卡内基·梅隆大学有以下说法: 数据集不应混乱,因为你不希望花费大量时间清理数据。 数据集不应该有太多行或列,因此很容易使用。 数据越干净越好 —— 清洗大型数据集相当耗时。 https://archive.org/details/comma-dataset 城市景观数据集:记录50个不同城市的城市街道场景的大型数据集。 http://www.lara.prd.fr/benchmarks/trafficlightsrecognition WPI 数据集:交通灯、行人和车道检测的数据集。
这就像你家里的自来水,经过水厂的处理(数据治理),变成了干净、安全、符合标准的饮用水(高质量的数据),你可以放心喝。3. 高质量数据集:这是个"专用产品"高质量数据集是专门为AI模型训练设计的结构化数据产品。它不是简单的"干净数据",而是针对特定应用场景、经过系统化处理的"燃料"。 高质量数据集的特征:场景牵引(为某个具体的AI应用服务)高质量标注(数据打好了标签,模型才能学习)结构化格式(训练集、验证集、测试集分好了)数据增强(可能包含合成数据、增强数据)丰富元数据(记录数据来源 你可以对照一下,看看你们公司是不是有这些情况(如果下面的问题你中了3个以上,说明你还在数据治理阶段挣扎):数据治理层面:不同部门对同一个指标的定义不一样,销售额、客户数对不上子公司、事业部各自为政,集团根本不知道下面有多少数据重复数据一堆 第三阶段:按需构建高质量数据集(解决"模型能不能训")只有在前两个阶段打好基础后,才适合针对特定AI场景建设数据集。这个阶段的核心目标是为AI模型训练提供高质量、可用的数据燃料。
编译:蒋宝尚 转载自:大数据文摘,未经允许不得二次转载 在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。 那么用于机器学习的开放数据集有哪些呢? 文摘菌给大家推荐一份高质量的数据集,这些数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。 首先,在搜索数据集时,在卡内基·梅隆大学有以下说法: 数据集不应混乱,因为你不希望花费大量时间清理数据。 数据集不应该有太多行或列,因此很容易使用。 数据越干净越好 —— 清洗大型数据集相当耗时。 https://archive.org/details/comma-dataset 城市景观数据集:记录50个不同城市的城市街道场景的大型数据集。 http://www.lara.prd.fr/benchmarks/trafficlightsrecognition WPI 数据集:交通灯、行人和车道检测的数据集。
数据集格式:Pascal VOC格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):6223 标注数量(xml文件个数 ):6223 标注数量(txt文件个数):6223 标注类别数:3 标注类别名称:["car","bus","truck"] 每个类别标注的框数: bus 框数 = 366 car 框数 = 20288 truck 框数 = 33 总框数:20687 使用标注工具:labelImg 标注规则:对类别进行画矩形框 重要说明:这个数据集被重新手动打标签校对 特别声明:本数据集不对训练的模型或者权重文件精度作任何保证 ,数据集只提供准确且合理标注 图片预览: 标注例子:
引言上一篇中,我们了解了高质量数据集建设流程中至关重要的“需求调研”与“数据规划”两大环节,掌握了从现状摸底、场景拆解到供需确认的五步调研法,成功输出了高质量数据集清单;还深入学习了如何通过基本信息编目 数据工程实施环节这一环节是将抽象的数据集清单转化为可直接支撑 AI 模型训练与业务应用的高质量数据资产的关键,重点涵盖数据采集、数据预处理、数据标注三大核心模块,通过全链路的工程化能力,确保数据从源头到交付的每一步都可控 、可追溯、高质量。 标注数据生成入库:已标注数据集沉淀为数据资产,可直接用于模型开发、训练、推理等环节,同时支持标注数据集导出到本地,满足灵活的应用需求。 但是需要注意的是,为了适配复杂场景的标注需求,有时也需要结合多种特性标注工具协同进行,比如说涉及到建模类型的,可以采用BIM标注、3D点云标注、图纸标注。
引言上一篇中,我们了解了数据工程实施环节的核心全流程,深入掌握了如何通过多样化的采集手段打破数据孤岛,利用智能化的预处理插件清洗多源异构数据,以及通过端到端的标注体系将原始样本转化为高质量的监督学习数据 数据集编目上架数据集编目上架是将经过采集、预处理、标注等环节产出的高质量数据资产,进行标准化 “身份登记” 并纳入统一管理的关键环节。 管理信息(来处与去处)来源系统公安警情系统、消防接处警系统、120急救调度系统、应急管理局综合平台管理单位城市指挥中心数据管理科业务管理标签应急指挥、多部门融合、核心业务质量检测符合情况符合《城市指挥中心高质量数据集目录建设标准 本环节以《高质量数据集 质量评测规范(征求意见稿)》为指导,从说明文档维度、数据质量维度、模型应用维度三大核心维度,对数据集进行全面体检,确保其满足 AI 模型开发、训练及业务场景的核心要求。 在《高质量数据集 质量评测规范( 征求意见稿) 》中,规范了以下三大检测维度:说明文档维度:要求数据集的说明文档完整,需包含基本信息、内容特征、建设过程及应用说明等内容。
引言 在软件测试中,测试数据的质量直接影响测试效果。高质量的测试数据能够帮助测试工程师发现更多潜在的缺陷,提升测试覆盖率,确保软件质量。 本文将深入探讨AI如何自动创建高质量的测试数据集,帮助测试工作者提升测试效率和质量。 让我们一起探索AI如何自动创建高质量的测试数据集。 要点 描述 互动 传统挑战 耗时耗力、覆盖不全、缺乏多样性 你在测试数据生成中遇到过哪些挑战? ── 趋势3: 多模态数据融合 ├── 趋势4: 自适应学习系统 └── 趋势5: 隐私保护增强 自然语言驱动:通过自然语言描述测试需求,自动生成符合需求的测试数据 实时数据生成:根据测试执行情况,实时生成和调整测试数据 Future of Test Data Management Data Privacy in Test Data Generation 来源1 → 文章: 基础概念 来源2 → 文章: 工具应用 来源3
构建数据集 到目前为止,我们的数据质量可能在以下方面有一些改进: 清理数据 目前提取的数据可能有一些记录丢失了基本的数据信号。它们可以被安全地丢弃。 我们可以强制要求至少存在3个测量字段,以减少数据集中的噪音,因为不同的审阅者获得了相同的id。然后可以安全地删除所有不存在此类信息的记录。 标准化 数据中可能存在一些属性,它们在所有记录中可能没有相同的含义。在这种情况下,我们需要使用我们的直觉(或一些基线)来标准化跨数据集的属性。 结论 完成上述所有步骤后,数据中的记录可能如下: 1{ 2 "item_id": "507565", 3 "size": 12, 4 "quality": 5, 5 "cup 在此过程中,请记住本文的以下主要观点: 无论您是否考虑到特定的问题,请尝试识别数据集的EssentialData信号。这将指导数据集搜索过程。 结合来自多个数据源的数据,以提高数据集的有用性和质量。
然而,高质量的数据集若被束之高阁,便无法产生实际价值。只有当数据顺畅地流向需求方,并在业务场景中发挥作用时,其价值才得以真正释放。 那为什么数据集市这么重要?之前我们构造的数据仓库或者说高质量数据集文件不可以直接拿来用吗?可以是可以,但是不够便捷,不够规范! 在将数据集发布到数据超市之前,需要确保数据集已经完成了前面几步操作,保证数据集已经达到了高质量数据集的标准和质量要求,后面的发布过程,其实同普通数据集的上架是一致的了,主要包含如下几步:发布申请提交:数据提供方 (我方)在数据管理平台上提交数据集发布申请,填写发布信息;发布审核:数据管理部门对发布申请进行审核;数据集上架:审核通过后,数据集将被自动发布到数据超市,并生成唯一的数据集ID和访问链接。 上架后,数据集将在数据超市中展示;发布后管理:数据集发布后,数据提供方需要进行持续的管理和维护。
但是这里我想说的是,在高质量数据集建设这个事情上不一样。第一,数据的质量不是天然形成的,而是设计出来的。 过去企业做业务系统,数据是业务的副产品,有就用、没有就算了。 但高质量数据集不同,它要求数据具备场景适配性、多模态融合能力与AI可训性,这些特性不可能靠自然积累获得,必须从源头规划数据采集标准、标注规范、质量评估体系。 在功能方面,基本需要覆盖以下三大能力:数据集生产工具链数据集综合管理数据集服务接口第四,从"有数据"到"有好数据"平台建好了,标准也有了,接下来就是真刀真枪地生产高质量数据集。 说实话,我们目前专职做数据运营的就3个人,要管几百个数据集的日常维护、问题响应、质量监控,确实有点力不从心。后续打算在重点业务部门培养数据运营联络员,形成分布式运营网络,减轻中心团队压力。 因为在这个人工智能+的时代,谁掌握了高质量数据,谁就掌握了未来的主动权。至于具体做法对不对,欢迎大家批评指正。毕竟高质量数据集建设这事儿,全行业都还在探索,没有标准答案,只有不断试错、不断迭代。共勉。
导读 今天,“计算机视觉”给大家介绍一个新的大型目标检测数据集Objects365,它拥有超过600,000个图像,365个类别和超过1000万个高质量的边界框。 摘要先前看 Objects365可用作更好的特征学习数据集,用于对位置敏感的任务,例如目标检测和分割。 今天我们分享的将进一步介绍了一种新的大规模、高质量的目标检测数据集Objects 365,主要集中在三个方面:规模、质量和泛化。 ? 02 ? 这个注释管道保证了高效率获得高质量的注释。 新的Objects365数据集直接解决了上述两个问题,并为特性学习提供了更好的选择。
因此,让我们开始看看如何识别、抓取和构建一个高质量的机器学习数据集。 本文的重点是解释如何通过实际示例和代码片段构建高质量的数据集。 在整篇文章中,我将引用我收集到的三个高质量的数据集,分别是服装尺寸推荐Fit数据集,新闻类数据集,讽刺检测数据集来解释各个点。为了做好准备,接下来我将简要解释每个数据集的内容。 如果你希望收集和构建一个高质量的数据集,你可能会遇到以下两种情况之一: 你正在寻找能够解决特定问题的数据集。(问题已知) 你正在寻找可用于解决有趣问题的数据集。 如果找不到单个数据源,请查看是否可以将多个数据源的数据组合起来构建数据集:讽刺检测数据集是将多个数据源的数据组合起来构建完整且高质量数据集的完美示例。 高质量数据集的另一个标志是,它可以用来解决有趣的和实际的问题,或者能够对一些现象提供有趣的见解。
总体架构总体架构图基本示意图如下:一套标准,完善内部“高质量数据集”的标准规范根据上一篇文章中提到的《高质量数据集目录建设标准》、《高质量数据集质量管理标准》、《高质量数据集服务使用规范》、《高质量数据集管理制度 》,需要逐步构建起自己内部的高质量数据集标准规范,主要阶段及依据如下图所示:标准规范示例格式如下:展开代码语言:TXTAI代码解释1范围2规范性引用文件3术语和定义3.1模型3.2高质量数据集3.3元数据 3.4值域3.5数据标注4高质量数据集总体定义4.1高质量数据集内容框架4.2高质量数据集分类体系4.3高质量数据集分级要求4.4高质量数据集编目要求5行业通识数据集5.1XX数据集15.1.1基本信息 +高质量数据集特有属性高质量数据集目录的建设,并非是简单罗列数据集名称,而是包含信息资源分类分级属性+高质量数据集特有属性两大部分。 一套工具,围绕数据集目录建设,工具支撑生产、管理及服务业务流程开展高质量数据集的管理与应用不再依赖人工经验,而是通过高质量数据集管理子系统实现全流程数字化、标准化管控。
建设标准:2025年陆续推出相关标准草案《高质量数据集分类指南》(TC609-5-2025-03)是由全国数据标准化技术委员会发布的技术文件,旨在为高质量数据集提供一套清晰、统一的分类体系与方法,以解决当前高质量数据集分类标准缺失 《高质量数据集格式要求》(TC609-5-2025-02)是由全国数据标准化技术委员会发布的技术文件,旨在为高质量数据集提供统一的元数据格式规范,以解决数据集格式不规范、不统一的问题,促进数据集的可读性 《高质量数据集建设指南》(TC609-5-2025-01)是由全国数据标准化技术委员会发布的技术文件,旨在为高质量数据集的建设提供全生命周期的指导,推动我国人工智能数据基础设施的规范化发展。 什么是高质量数据集在项目实践中,我经常被问到:"到底什么是高质量数据集?"这个问题看似简单,实则涉及多个维度的考量。 高质量数据集分类及特征高质量数据集大致可以分为三大类,分别是通识数据集、行业通识数据集和行业专识数据集。
本数据集使用3D LiDAR扫描仪收集的大型全环绕3D多目标检测和跟踪数据集。其包含160个拥挤且高度互动的交通场景,在27,721帧中共有100万个标记实例。 凭借独特的数据集大小,丰富的注释和复杂的场景,H3D聚集在一起,以激发对全环绕3D多目标检测和跟踪的研究。 ? 该数据集由140万张图像、39万次激光雷达扫描和140万个3D人工注释边界框组成,是迄今为止公布的最大的多模态3D 无人驾驶数据集。 ? 该数据集比PASCAL3D +和KITTI(现有技术水平)大20倍以上。 ? 大型数据集,包含从50个不同城市的街景中记录的各种立体视频序列,高质量的像素级注释为5000帧,另外还有一组较大的20000个弱注释帧。因此,数据集比先前的类似尝试大一个数量级。
Objects365 A Large-scale, High-quality Dataset for Object Detection 原文作者:Shuai Shao 内容提要 本文引入了一个新的大规模目标检测数据集 通过精心设计的三步注释管道,手工标注了超过1000万个高质量的边框。它是迄今为止最大的目标检测数据集(带有完整的注释),为社区建立了更具挑战性的基准。 Objects365作为一个更好的特征学习数据集,用于对位置敏感的任务,如目标检测和语义分割。