阅读大概需要21分钟 来自:夕小瑶的卖萌屋 今天发烧睡了一天T^T,刷了刷知乎,刷到了这个问题 知乎:如何打造高质量的机器学习数据集? ,尽早构造数据集迭代闭环 关于复杂NLP任务 什么是高质量 刚入坑的一些小伙伴可能会以为“高质量”=“超级干净”,于是为了追求“高质量”而疯狂的预处理,最后哭了╮(╯▽╰)╭。 这两个看似不太相关的目的背后对“高质量”的定义确是非常相近的,那就是:解决问题! 这应该是做一个高质量数据集前首先要考虑的问题。 ,会让你感受到产出一个高质量的任务完成型对话数据集是一个很有挑战的工作,自己从头摸索的话可能到头来只会收获一脸懵逼╮( ̄▽ ̄””)╭ 所以面对一些比较复杂的NLP任务的时候,一定一定要记得先精读一下最新最权威的数据集的
大数据文摘出品 编译:蒋宝尚 在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。 那么用于机器学习的开放数据集有哪些呢? 文摘菌给大家推荐一份高质量的数据集,这些数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。 首先,在搜索数据集时,在卡内基·梅隆大学有以下说法: 数据集不应混乱,因为你不希望花费大量时间清理数据。 数据集不应该有太多行或列,因此很容易使用。 数据越干净越好 —— 清洗大型数据集相当耗时。 https://archive.org/details/comma-dataset 城市景观数据集:记录50个不同城市的城市街道场景的大型数据集。 http://www.lara.prd.fr/benchmarks/trafficlightsrecognition WPI 数据集:交通灯、行人和车道检测的数据集。
最近和几位企业数据负责人聊天,发现一个特别普遍的现象:很多公司听说要上AI,赶紧找供应商咨询"高质量数据集怎么建"。结果对方一看企业现状,直接劝退:"你们连数据治理都没做好,谈什么数据集? 高质量数据集:这是个"专用产品"高质量数据集是专门为AI模型训练设计的结构化数据产品。它不是简单的"干净数据",而是针对特定应用场景、经过系统化处理的"燃料"。 高质量数据集的特征:场景牵引(为某个具体的AI应用服务)高质量标注(数据打好了标签,模型才能学习)结构化格式(训练集、验证集、测试集分好了)数据增强(可能包含合成数据、增强数据)丰富元数据(记录数据来源 第三阶段:按需构建高质量数据集(解决"模型能不能训")只有在前两个阶段打好基础后,才适合针对特定AI场景建设数据集。这个阶段的核心目标是为AI模型训练提供高质量、可用的数据燃料。 我一直坚持一个观点:数据质量是企业的核心竞争力。而搞清楚数据治理、高质量的数据、高质量数据集的关系,是少走弯路、少花冤枉钱的关键。
编译:蒋宝尚 转载自:大数据文摘,未经允许不得二次转载 在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。 那么用于机器学习的开放数据集有哪些呢? 文摘菌给大家推荐一份高质量的数据集,这些数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。 首先,在搜索数据集时,在卡内基·梅隆大学有以下说法: 数据集不应混乱,因为你不希望花费大量时间清理数据。 数据集不应该有太多行或列,因此很容易使用。 数据越干净越好 —— 清洗大型数据集相当耗时。 https://archive.org/details/comma-dataset 城市景观数据集:记录50个不同城市的城市街道场景的大型数据集。 http://www.lara.prd.fr/benchmarks/trafficlightsrecognition WPI 数据集:交通灯、行人和车道检测的数据集。
引言上一篇中,我们了解了数据工程实施环节的核心全流程,深入掌握了如何通过多样化的采集手段打破数据孤岛,利用智能化的预处理插件清洗多源异构数据,以及通过端到端的标注体系将原始样本转化为高质量的监督学习数据 数据集编目上架数据集编目上架是将经过采集、预处理、标注等环节产出的高质量数据资产,进行标准化 “身份登记” 并纳入统一管理的关键环节。 管理信息(来处与去处)来源系统公安警情系统、消防接处警系统、120急救调度系统、应急管理局综合平台管理单位城市指挥中心数据管理科业务管理标签应急指挥、多部门融合、核心业务质量检测符合情况符合《城市指挥中心高质量数据集目录建设标准 本环节以《高质量数据集 质量评测规范(征求意见稿)》为指导,从说明文档维度、数据质量维度、模型应用维度三大核心维度,对数据集进行全面体检,确保其满足 AI 模型开发、训练及业务场景的核心要求。 在《高质量数据集 质量评测规范( 征求意见稿) 》中,规范了以下三大检测维度:说明文档维度:要求数据集的说明文档完整,需包含基本信息、内容特征、建设过程及应用说明等内容。
“潜在高质量数据集”,并厘清各部门在其中扮演的供给方与需求方角色,明确权责关系。 第五步:形成高质量数据集清单完成以上步骤后,根据数据的具备条件、需求频度,形成最终可以产出的高质量数据集清单。 数据规划环节该环节主要目标是完成高质量数据集的编目化及内容设计,基于筛选确认的高质量数据集清单,对每个数据进行分类分级、数据特征、标签、元数据、样例数据整理,编制数据集内容规范《高质量数据集目录建设标准 这里可以参考从0开始全面认识高质量数据集建设(1)中提到的建设指南和政策依据,规范包括:高质量数据集内容框架高质量数据集分类体系高质量数据集编目要求然后重点来了,针对于上述的高质量数据集清单,我们其实是可以进一步拆分分类的 ,比如说按照从0开始全面认识高质量数据集建设(1)中提到的可以拆分为通识类数据集、行业通识类数据集、行业专识类数据集,但是一般而言,内部建设智能体场景时,只有行业通识类数据集和行业专识类数据集。
引言上一篇中,我们了解了高质量数据集建设流程中至关重要的“需求调研”与“数据规划”两大环节,掌握了从现状摸底、场景拆解到供需确认的五步调研法,成功输出了高质量数据集清单;还深入学习了如何通过基本信息编目 、内容结构设计及生产加工要求的明确,为数据集制定出详尽的《目录建设标准》。 数据工程实施环节这一环节是将抽象的数据集清单转化为可直接支撑 AI 模型训练与业务应用的高质量数据资产的关键,重点涵盖数据采集、数据预处理、数据标注三大核心模块,通过全链路的工程化能力,确保数据从源头到交付的每一步都可控 、可追溯、高质量。 标注数据生成入库:已标注数据集沉淀为数据资产,可直接用于模型开发、训练、推理等环节,同时支持标注数据集导出到本地,满足灵活的应用需求。
引言 在软件测试中,测试数据的质量直接影响测试效果。高质量的测试数据能够帮助测试工程师发现更多潜在的缺陷,提升测试覆盖率,确保软件质量。 本文将深入探讨AI如何自动创建高质量的测试数据集,帮助测试工作者提升测试效率和质量。 让我们一起探索AI如何自动创建高质量的测试数据集。 要点 描述 互动 传统挑战 耗时耗力、覆盖不全、缺乏多样性 你在测试数据生成中遇到过哪些挑战? ├── 第六章:常见问题与解决方案 └── 第七章:未来发展与技能培养 第一章:测试数据的重要性与挑战 1.1 测试数据的重要性 测试数据是软件测试的基础,高质量的测试数据对测试效果有着决定性的影响: 第二章:AI辅助测试数据生成的原理 2.1 AI辅助测试数据生成的基本概念 AI辅助测试数据生成是指利用人工智能技术,特别是机器学习和深度学习技术,自动生成符合测试需求的高质量测试数据。
构建数据集 到目前为止,我们的数据质量可能在以下方面有一些改进: 清理数据 目前提取的数据可能有一些记录丢失了基本的数据信号。它们可以被安全地丢弃。 标准化 数据中可能存在一些属性,它们在所有记录中可能没有相同的含义。在这种情况下,我们需要使用我们的直觉(或一些基线)来标准化跨数据集的属性。 因此,在我们标准化所有记录的大小之前,数据集基本上是不可用的。 解决这一问题的一种方法是利用ModCloth上提供的尺寸图表,它将不同约定的尺寸映射到可以用来创建保存顺序的标准比例。 结构化 一旦我们确信我们所做的所有的预处理数据良好,剩下要做的最后一件事是将数据以一个共同的格式如CSV, JSON等新型结构化, 以便有兴趣使用数据集的人能够轻松地读取和导入数据。 在此过程中,请记住本文的以下主要观点: 无论您是否考虑到特定的问题,请尝试识别数据集的EssentialData信号。这将指导数据集搜索过程。 结合来自多个数据源的数据,以提高数据集的有用性和质量。
然而,高质量的数据集若被束之高阁,便无法产生实际价值。只有当数据顺畅地流向需求方,并在业务场景中发挥作用时,其价值才得以真正释放。 那为什么数据集市这么重要?之前我们构造的数据仓库或者说高质量数据集文件不可以直接拿来用吗?可以是可以,但是不够便捷,不够规范! 在将数据集发布到数据超市之前,需要确保数据集已经完成了前面几步操作,保证数据集已经达到了高质量数据集的标准和质量要求,后面的发布过程,其实同普通数据集的上架是一致的了,主要包含如下几步:发布申请提交:数据提供方 (我方)在数据管理平台上提交数据集发布申请,填写发布信息;发布审核:数据管理部门对发布申请进行审核;数据集上架:审核通过后,数据集将被自动发布到数据超市,并生成唯一的数据集ID和访问链接。 上架后,数据集将在数据超市中展示;发布后管理:数据集发布后,数据提供方需要进行持续的管理和维护。
但是这里我想说的是,在高质量数据集建设这个事情上不一样。第一,数据的质量不是天然形成的,而是设计出来的。 过去企业做业务系统,数据是业务的副产品,有就用、没有就算了。 但高质量数据集不同,它要求数据具备场景适配性、多模态融合能力与AI可训性,这些特性不可能靠自然积累获得,必须从源头规划数据采集标准、标注规范、质量评估体系。 但在"人工智能+"时代,数据是核心生产要素,高质量数据集是基础设施。基础设施能不能建好,决定了企业未来五到十年的竞争力。这笔账,值得好好算一算。 在功能方面,基本需要覆盖以下三大能力:数据集生产工具链数据集综合管理数据集服务接口第四,从"有数据"到"有好数据"平台建好了,标准也有了,接下来就是真刀真枪地生产高质量数据集。 因为在这个人工智能+的时代,谁掌握了高质量数据,谁就掌握了未来的主动权。至于具体做法对不对,欢迎大家批评指正。毕竟高质量数据集建设这事儿,全行业都还在探索,没有标准答案,只有不断试错、不断迭代。共勉。
因此,让我们开始看看如何识别、抓取和构建一个高质量的机器学习数据集。 本文的重点是解释如何通过实际示例和代码片段构建高质量的数据集。 在整篇文章中,我将引用我收集到的三个高质量的数据集,分别是服装尺寸推荐Fit数据集,新闻类数据集,讽刺检测数据集来解释各个点。为了做好准备,接下来我将简要解释每个数据集的内容。 如果你希望收集和构建一个高质量的数据集,你可能会遇到以下两种情况之一: 你正在寻找能够解决特定问题的数据集。(问题已知) 你正在寻找可用于解决有趣问题的数据集。 如果找不到单个数据源,请查看是否可以将多个数据源的数据组合起来构建数据集:讽刺检测数据集是将多个数据源的数据组合起来构建完整且高质量数据集的完美示例。 高质量数据集的另一个标志是,它可以用来解决有趣的和实际的问题,或者能够对一些现象提供有趣的见解。
总体架构总体架构图基本示意图如下:一套标准,完善内部“高质量数据集”的标准规范根据上一篇文章中提到的《高质量数据集目录建设标准》、《高质量数据集质量管理标准》、《高质量数据集服务使用规范》、《高质量数据集管理制度 》,需要逐步构建起自己内部的高质量数据集标准规范,主要阶段及依据如下图所示:标准规范示例格式如下:展开代码语言:TXTAI代码解释1范围2规范性引用文件3术语和定义3.1模型3.2高质量数据集3.3元数据 3.4值域3.5数据标注4高质量数据集总体定义4.1高质量数据集内容框架4.2高质量数据集分类体系4.3高质量数据集分级要求4.4高质量数据集编目要求5行业通识数据集5.1XX数据集15.1.1基本信息 +高质量数据集特有属性高质量数据集目录的建设,并非是简单罗列数据集名称,而是包含信息资源分类分级属性+高质量数据集特有属性两大部分。 一套工具,围绕数据集目录建设,工具支撑生产、管理及服务业务流程开展高质量数据集的管理与应用不再依赖人工经验,而是通过高质量数据集管理子系统实现全流程数字化、标准化管控。
建设标准:2025年陆续推出相关标准草案《高质量数据集分类指南》(TC609-5-2025-03)是由全国数据标准化技术委员会发布的技术文件,旨在为高质量数据集提供一套清晰、统一的分类体系与方法,以解决当前高质量数据集分类标准缺失 《高质量数据集格式要求》(TC609-5-2025-02)是由全国数据标准化技术委员会发布的技术文件,旨在为高质量数据集提供统一的元数据格式规范,以解决数据集格式不规范、不统一的问题,促进数据集的可读性 《高质量数据集建设指南》(TC609-5-2025-01)是由全国数据标准化技术委员会发布的技术文件,旨在为高质量数据集的建设提供全生命周期的指导,推动我国人工智能数据基础设施的规范化发展。 什么是高质量数据集在项目实践中,我经常被问到:"到底什么是高质量数据集?"这个问题看似简单,实则涉及多个维度的考量。 高质量数据集分类及特征高质量数据集大致可以分为三大类,分别是通识数据集、行业通识数据集和行业专识数据集。
本数据集使用3D LiDAR扫描仪收集的大型全环绕3D多目标检测和跟踪数据集。其包含160个拥挤且高度互动的交通场景,在27,721帧中共有100万个标记实例。 该数据集由140万张图像、39万次激光雷达扫描和140万个3D人工注释边界框组成,是迄今为止公布的最大的多模态3D 无人驾驶数据集。 ? 大型数据集,包含从50个不同城市的街景中记录的各种立体视频序列,高质量的像素级注释为5000帧,另外还有一组较大的20000个弱注释帧。因此,数据集比先前的类似尝试大一个数量级。 pKey=xyW6a0ZmrJtjLw2iJ71Oqg&lat=20&lng=0&z=1.5) -数据集是一个新颖的大规模街道级图像数据集,包含25,000个高分辨率图像,注释为66个对象类别,另有37 该立体数据集是从移动的车辆记录的,并且包含高分辨率立体图像,其补充有从IMU,GPS数据和来自汽车计算机的数据获得的定向和加速度数据。
导读 今天,“计算机视觉”给大家介绍一个新的大型目标检测数据集Objects365,它拥有超过600,000个图像,365个类别和超过1000万个高质量的边界框。 摘要先前看 Objects365可用作更好的特征学习数据集,用于对位置敏感的任务,例如目标检测和分割。 今天我们分享的将进一步介绍了一种新的大规模、高质量的目标检测数据集Objects 365,主要集中在三个方面:规模、质量和泛化。 ? 02 ? 这个注释管道保证了高效率获得高质量的注释。 新的Objects365数据集直接解决了上述两个问题,并为特性学习提供了更好的选择。
Objects365 A Large-scale, High-quality Dataset for Object Detection 原文作者:Shuai Shao 内容提要 本文引入了一个新的大规模目标检测数据集 通过精心设计的三步注释管道,手工标注了超过1000万个高质量的边框。它是迄今为止最大的目标检测数据集(带有完整的注释),为社区建立了更具挑战性的基准。 Objects365作为一个更好的特征学习数据集,用于对位置敏感的任务,如目标检测和语义分割。
浙大生仪学院磁共振平台的CBIST团队近期公开了一批包含三位旅行志愿者在十家不同中心采集的磁共振扩散成像数据集。数据的具体描述和简要质量报告已经在Scientific Data发表。 ? 本次公开的数据集严格控制了磁共振机型(西门子Prisma 3T)和采集参数,并召集三位旅行志愿者在十家中心间穿梭采集。 数据集涵盖了在10台同型号MRI扫描仪中采集了3名旅行者被试的脑部T1加权结构和多b值扩散加权成像(DWI)数据。在其中一台扫描仪内,对3名被试额外重复采集了2组数据。 ? 图1 公开数据集概况 所有中心均使用了Siemens 3T MR MAGNETOM Prisma扫描仪和同型号64通道头颈联合接收线圈进行成像。全部扫描由同一扫描员按照固定的操作流程。 颜色由纤维分布的方向编码 我们诚挚邀请各位同行对该公开数据集进行测试和应用,欢迎更进一步的交流合作。 感谢国家基然科学基金、中央高校基本业务费等项目对本课题的大力支持。
获取推特开发者账户的难度暂且按下不表,单就目前这个价格,就让不少科研人员、数据爱好者等望而却步。 /chatgpt_tweets_202301_445238条.csv') print(df.shape) # (445238, 47) 每一条数据都包含推文 ID、发布时间、正文、发布来源、语言、推文查看数
前言在构建text-to-sql模型时,高质量的数据和有效的数据流程是必不可少的。 ,这也是一切模型构建的前提;这篇文章就来讲一下在私有项目中我是如何持续积累高质量数据集,并沉淀相关流程框架的需要了解的词Prompt Engineering一种为生成式AI模型设计和提炼prompt的方法论 这些数据集可以作为模型的训练集、验证集和测试集,并且其高质量的标注使得它们有资格评价模型性能的标准,这些开源数据集通常也维护了一份LeaderBoard来show出使用它们训练出的模型表现,如下是我收集的来自 而为了大量的生产包括但不限于text-to-sql场景的高质量数据集,我们首先需要一套完整的数据集生产框架,囊括数据生成,生成后的数据分析,数据验证,以及生成结构化的Prompt等功能这里我基于cobra prompt,以支持和实现CoT链等特性在获取数据后,我们还需要进行严格的数据校验,以确保我们构建的text-to-sql数据集是高质量的;除此之外,我们还需要进行SQL分析,以了解SQL的具体思路,将思路也融合进训练数据集中