总体架构总体架构图基本示意图如下:一套标准,完善内部“高质量数据集”的标准规范根据上一篇文章中提到的《高质量数据集目录建设标准》、《高质量数据集质量管理标准》、《高质量数据集服务使用规范》、《高质量数据集管理制度 》,需要逐步构建起自己内部的高质量数据集标准规范,主要阶段及依据如下图所示:标准规范示例格式如下:展开代码语言:TXTAI代码解释1范围2规范性引用文件3术语和定义3.1模型3.2高质量数据集3.3元数据 3.4值域3.5数据标注4高质量数据集总体定义4.1高质量数据集内容框架4.2高质量数据集分类体系4.3高质量数据集分级要求4.4高质量数据集编目要求5行业通识数据集5.1XX数据集15.1.1基本信息 +高质量数据集特有属性高质量数据集目录的建设,并非是简单罗列数据集名称,而是包含信息资源分类分级属性+高质量数据集特有属性两大部分。 一套工具,围绕数据集目录建设,工具支撑生产、管理及服务业务流程开展高质量数据集的管理与应用不再依赖人工经验,而是通过高质量数据集管理子系统实现全流程数字化、标准化管控。
数据集格式:Pascal VOC格式+YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数):9599标注数量(xml 文件个数):9599标注数量(txt文件个数):9599标注类别数:2标注类别名称(注意yolo格式类别顺序不和这个对应,而以labels文件夹classes.txt为准):["fall","normal "]每个类别标注的框数:fall 框数 = 6013normal 框数 = 7188总框数:13201使用标注工具:labelImg标注规则:对类别进行画矩形框重要说明:暂无特别声明:本数据集不对训练的模型或者权重文件精度作任何保证 ,数据集只提供准确且合理标注图片预览:标注例子:
阅读大概需要21分钟 来自:夕小瑶的卖萌屋 今天发烧睡了一天T^T,刷了刷知乎,刷到了这个问题 知乎:如何打造高质量的机器学习数据集? ,尽早构造数据集迭代闭环 关于复杂NLP任务 什么是高质量 刚入坑的一些小伙伴可能会以为“高质量”=“超级干净”,于是为了追求“高质量”而疯狂的预处理,最后哭了╮(╯▽╰)╭。 这两个看似不太相关的目的背后对“高质量”的定义确是非常相近的,那就是:解决问题! 这应该是做一个高质量数据集前首先要考虑的问题。 ])这三种协同构造任务型对话数据集的方式总结的很到位,会让你感受到产出一个高质量的任务完成型对话数据集是一个很有挑战的工作,自己从头摸索的话可能到头来只会收获一脸懵逼╮( ̄▽ ̄””)╭ 所以面对一些比较复杂的
2背景 要将遥感集成到您的研究和分析中,学习如何解析 Google 地球引擎上可用的大量栅格数据集非常重要。了解这些数据的分类方式有助于开始此过程。 示例集合:NED 国家高程数据集 (NED) 是一个高质量的数字高程模型 (DEM),它横跨美国大陆以及阿拉斯加和夏威夷的部分地区。 华盛顿和爱达荷州边界上的美国国家高程数据集。 3图像采集探索 现在我们已经了解了我们可以使用的数据集的深度和广度,我们可以花点时间详细探索一个集合。 在搜索栏中输入数据集名称的结果。 如果我们点击数据集的名称,我们会看到一个弹出窗口,其中包含一个“导入”按钮(以红色突出显示)。单击此按钮将自动将数据集加载到脚本工作区中。 Google Earth Engine 中可用的一些数据集可用于每日测量(即 MODIS),而其他数据集可能是每月(即 WorldClim)。
导 读 MERRA-2是一套长时间序列的在分析数据集,其中包括各种气象变量,像净辐射、温度、相对湿度、风速等。 同时,MERRA-2数据覆盖全球,空间分辨率为0.5 ° x 0.625 °,时间分辨率为1小时。这种气象数据在定量遥感中的应用可以说是十分的广泛。 我们今天就一块来看一下这种数据。 01 我们今天就把整理好的MERRA-2数据分享给大家,从1980年到2019年1月的数据,时间分辨率已经聚合成一天的。 首先我们看一下MERRA-2的净辐射数据。 ? 这一景为MERRA-2一天的平均净辐射数据(也有一天的最大值和最小值),这个数据由于是采用同化算法计算得来的,所以全球没有空缺,是一个空间连续的数据。 02 我们再看一下全球的风速数据 ? 04 我们再来看一下MERRA-2官方网站上的一些根据MERRA-2数据做好的图。 ? ? MERRA-2数据分辨率比较粗,显示的时候就会看出来网格。
导读 MERRA-2是一套长时间序列的在分析数据集,其中包括各种气象变量,像净辐射、温度、相对湿度、风速等。 同时,MERRA-2数据覆盖全球,空间分辨率为0.5 ° x 0.625 °,时间分辨率为1小时。这种气象数据在定量遥感中的应用可以说是十分的广泛。 我们今天就一块来看一下这种数据。 01 我们今天就把整理好的MERRA-2数据分享给大家,从1980年到2019年1月的数据,时间分辨率已经聚合成一天的。 首先我们看一下MERRA-2的净辐射数据。 这一景为MERRA-2一天的平均净辐射数据(也有一天的最大值和最小值),这个数据由于是采用同化算法计算得来的,所以全球没有空缺,是一个空间连续的数据。 04 我们再来看一下MERRA-2官方网站上的一些根据MERRA-2数据做好的图。 MERRA-2数据分辨率比较粗,显示的时候就会看出来网格。
大数据文摘出品 编译:蒋宝尚 在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。 那么用于机器学习的开放数据集有哪些呢? 文摘菌给大家推荐一份高质量的数据集,这些数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。 首先,在搜索数据集时,在卡内基·梅隆大学有以下说法: 数据集不应混乱,因为你不希望花费大量时间清理数据。 数据集不应该有太多行或列,因此很容易使用。 数据越干净越好 —— 清洗大型数据集相当耗时。 年 2 月以来美国航空公司的 Twitter 数据,分类为正面、负面和中性推文。 https://archive.org/details/comma-dataset 城市景观数据集:记录50个不同城市的城市街道场景的大型数据集。
数据治理就像你家装修前要先做水电改造、定好插座位置、规划好动线,把基础打牢,后面才不会出乱子。2. 高质量的数据:这是个"结果"经过数据治理后,你得到的就是高质量的数据。 高质量数据集:这是个"专用产品"高质量数据集是专门为AI模型训练设计的结构化数据产品。它不是简单的"干净数据",而是针对特定应用场景、经过系统化处理的"燃料"。 高质量数据集的特征:场景牵引(为某个具体的AI应用服务)高质量标注(数据打好了标签,模型才能学习)结构化格式(训练集、验证集、测试集分好了)数据增强(可能包含合成数据、增强数据)丰富元数据(记录数据来源 2天压缩到半天。 第三阶段:按需构建高质量数据集(解决"模型能不能训")只有在前两个阶段打好基础后,才适合针对特定AI场景建设数据集。这个阶段的核心目标是为AI模型训练提供高质量、可用的数据燃料。
编译:蒋宝尚 转载自:大数据文摘,未经允许不得二次转载 在机器学习中,寻找数据集也是非常重要的一步。质量高或者相关性高的数据集对模型的训练是非常有帮助的。 那么用于机器学习的开放数据集有哪些呢? 文摘菌给大家推荐一份高质量的数据集,这些数据集或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。 首先,在搜索数据集时,在卡内基·梅隆大学有以下说法: 数据集不应混乱,因为你不希望花费大量时间清理数据。 数据集不应该有太多行或列,因此很容易使用。 数据越干净越好 —— 清洗大型数据集相当耗时。 年 2 月以来美国航空公司的 Twitter 数据,分类为正面、负面和中性推文。 https://archive.org/details/comma-dataset 城市景观数据集:记录50个不同城市的城市街道场景的大型数据集。
Fasion-MNIST是一位老师推荐给我的,要求我在做完MNIST-handwriting数据之后,再玩一下fmnist。这个数据集也是28*28的灰度图像,你可以从下面的图片看清图片内容。 这个数据集是由一家德国的时尚科技公司Zalando提供的,我觉一家公司把定位成时尚科技公司,而不是电商平台,是把科技创新能力作为主要生产力。 本文主要用Keras编写模型,训练数据,并以清晰的可视化方式展示。 查看数据 数据可以从git仓库上下载,https://github.com/zalandoresearch/fashion-mnist fasion-mnist 作为tensorflow分类教程数据, colab.research.google.com/github/margaretmz/deep-learning/blob/master/fashion_mnist_keras.ipynb 运行以上程序,10分钟会验证集准确率能达到
“潜在高质量数据集”,并厘清各部门在其中扮演的供给方与需求方角色,明确权责关系。 第五步:形成高质量数据集清单完成以上步骤后,根据数据的具备条件、需求频度,形成最终可以产出的高质量数据集清单。 数据规划环节该环节主要目标是完成高质量数据集的编目化及内容设计,基于筛选确认的高质量数据集清单,对每个数据进行分类分级、数据特征、标签、元数据、样例数据整理,编制数据集内容规范《高质量数据集目录建设标准 这里可以参考从0开始全面认识高质量数据集建设(1)中提到的建设指南和政策依据,规范包括:高质量数据集内容框架高质量数据集分类体系高质量数据集编目要求然后重点来了,针对于上述的高质量数据集清单,我们其实是可以进一步拆分分类的 ,比如说按照从0开始全面认识高质量数据集建设(1)中提到的可以拆分为通识类数据集、行业通识类数据集、行业专识类数据集,但是一般而言,内部建设智能体场景时,只有行业通识类数据集和行业专识类数据集。
引言上一篇中,我们了解了高质量数据集建设流程中至关重要的“需求调研”与“数据规划”两大环节,掌握了从现状摸底、场景拆解到供需确认的五步调研法,成功输出了高质量数据集清单;还深入学习了如何通过基本信息编目 、内容结构设计及生产加工要求的明确,为数据集制定出详尽的《目录建设标准》。 数据工程实施环节这一环节是将抽象的数据集清单转化为可直接支撑 AI 模型训练与业务应用的高质量数据资产的关键,重点涵盖数据采集、数据预处理、数据标注三大核心模块,通过全链路的工程化能力,确保数据从源头到交付的每一步都可控 、可追溯、高质量。 标注数据生成入库:已标注数据集沉淀为数据资产,可直接用于模型开发、训练、推理等环节,同时支持标注数据集导出到本地,满足灵活的应用需求。
数据集编目上架数据集编目上架是将经过采集、预处理、标注等环节产出的高质量数据资产,进行标准化 “身份登记” 并纳入统一管理的关键环节。 管理信息(来处与去处)来源系统公安警情系统、消防接处警系统、120急救调度系统、应急管理局综合平台管理单位城市指挥中心数据管理科业务管理标签应急指挥、多部门融合、核心业务质量检测符合情况符合《城市指挥中心高质量数据集目录建设标准 样例数据事件ID:CZ-YJ-20260216001事件类型:火灾发生时间:2026-02-16 14:30:00地点:XX市XX区XX路XX号(北纬30.XX,东经120.XX)事件等级:2级(重大) 本环节以《高质量数据集 质量评测规范(征求意见稿)》为指导,从说明文档维度、数据质量维度、模型应用维度三大核心维度,对数据集进行全面体检,确保其满足 AI 模型开发、训练及业务场景的核心要求。 在《高质量数据集 质量评测规范( 征求意见稿) 》中,规范了以下三大检测维度:说明文档维度:要求数据集的说明文档完整,需包含基本信息、内容特征、建设过程及应用说明等内容。
引言 在软件测试中,测试数据的质量直接影响测试效果。高质量的测试数据能够帮助测试工程师发现更多潜在的缺陷,提升测试覆盖率,确保软件质量。 本文将深入探讨AI如何自动创建高质量的测试数据集,帮助测试工作者提升测试效率和质量。 让我们一起探索AI如何自动创建高质量的测试数据集。 要点 描述 互动 传统挑战 耗时耗力、覆盖不全、缺乏多样性 你在测试数据生成中遇到过哪些挑战? 第二章:AI辅助测试数据生成的原理 2.1 AI辅助测试数据生成的基本概念 AI辅助测试数据生成是指利用人工智能技术,特别是机器学习和深度学习技术,自动生成符合测试需求的高质量测试数据。 、隐私保护 数据隐私保护、保持数据真实性 金融、医疗等敏感领域测试 Mostly AI 合成数据平台、机器学习驱动 高质量数据生成、自动模式学习 复杂业务场景测试 H2O.ai 开源AI平台、数据生成功能
构建数据集 到目前为止,我们的数据质量可能在以下方面有一些改进: 清理数据 目前提取的数据可能有一些记录丢失了基本的数据信号。它们可以被安全地丢弃。 标准化 数据中可能存在一些属性,它们在所有记录中可能没有相同的含义。在这种情况下,我们需要使用我们的直觉(或一些基线)来标准化跨数据集的属性。 结构化 一旦我们确信我们所做的所有的预处理数据良好,剩下要做的最后一件事是将数据以一个共同的格式如CSV, JSON等新型结构化, 以便有兴趣使用数据集的人能够轻松地读取和导入数据。 结论 完成上述所有步骤后,数据中的记录可能如下: 1{ 2 "item_id": "507565", 3 "size": 12, 4 "quality": 5, 5 "cup 在此过程中,请记住本文的以下主要观点: 无论您是否考虑到特定的问题,请尝试识别数据集的EssentialData信号。这将指导数据集搜索过程。 结合来自多个数据源的数据,以提高数据集的有用性和质量。
然而,高质量的数据集若被束之高阁,便无法产生实际价值。只有当数据顺畅地流向需求方,并在业务场景中发挥作用时,其价值才得以真正释放。 那为什么数据集市这么重要?之前我们构造的数据仓库或者说高质量数据集文件不可以直接拿来用吗?可以是可以,但是不够便捷,不够规范! 在将数据集发布到数据超市之前,需要确保数据集已经完成了前面几步操作,保证数据集已经达到了高质量数据集的标准和质量要求,后面的发布过程,其实同普通数据集的上架是一致的了,主要包含如下几步:发布申请提交:数据提供方 (我方)在数据管理平台上提交数据集发布申请,填写发布信息;发布审核:数据管理部门对发布申请进行审核;数据集上架:审核通过后,数据集将被自动发布到数据超市,并生成唯一的数据集ID和访问链接。 上架后,数据集将在数据超市中展示;发布后管理:数据集发布后,数据提供方需要进行持续的管理和维护。
但高质量数据集不同,它要求数据具备场景适配性、多模态融合能力与AI可训性,这些特性不可能靠自然积累获得,必须从源头规划数据采集标准、标注规范、质量评估体系。 在功能方面,基本需要覆盖以下三大能力:数据集生产工具链数据集综合管理数据集服务接口第四,从"有数据"到"有好数据"平台建好了,标准也有了,接下来就是真刀真枪地生产高质量数据集。 、政策文件2个月300余条标注对话数据安全监管视频流抽帧、风险样本6个月3000余张标注图像风险预测交易记录、行为日志10个月近万条时序数据每个试点完成后都进行复盘,总结经验后再推广到其他场景。 数据集的价值不在于有,而在于用。我们统计发现,被调用次数越多的数据集,其迭代优化速度也越快,质量提升越明显。这就像流水不腐,用得越多,活得越好。2、问题处理与持续迭代数据集用起来,肯定会有问题。 因为在这个人工智能+的时代,谁掌握了高质量数据,谁就掌握了未来的主动权。至于具体做法对不对,欢迎大家批评指正。毕竟高质量数据集建设这事儿,全行业都还在探索,没有标准答案,只有不断试错、不断迭代。共勉。
导读 今天,“计算机视觉”给大家介绍一个新的大型目标检测数据集Objects365,它拥有超过600,000个图像,365个类别和超过1000万个高质量的边界框。 摘要先前看 Objects365可用作更好的特征学习数据集,用于对位置敏感的任务,例如目标检测和分割。 今天我们分享的将进一步介绍了一种新的大规模、高质量的目标检测数据集Objects 365,主要集中在三个方面:规模、质量和泛化。 ? 02 ? 2 QUALITY It's a Title Here 除了大小之外,在构建数据集时,注释质量也是非常重要的。为了保证标注的质量,将注释流水线划分为三个步骤,从而大大降低了注释器的作业要求。 ? ? 新的Objects365数据集直接解决了上述两个问题,并为特性学习提供了更好的选择。
因此,让我们开始看看如何识别、抓取和构建一个高质量的机器学习数据集。 本文的重点是解释如何通过实际示例和代码片段构建高质量的数据集。 在整篇文章中,我将引用我收集到的三个高质量的数据集,分别是服装尺寸推荐Fit数据集,新闻类数据集,讽刺检测数据集来解释各个点。为了做好准备,接下来我将简要解释每个数据集的内容。 如果你希望收集和构建一个高质量的数据集,你可能会遇到以下两种情况之一: 你正在寻找能够解决特定问题的数据集。(问题已知) 你正在寻找可用于解决有趣问题的数据集。 如果找不到单个数据源,请查看是否可以将多个数据源的数据组合起来构建数据集:讽刺检测数据集是将多个数据源的数据组合起来构建完整且高质量数据集的完美示例。 高质量数据集的另一个标志是,它可以用来解决有趣的和实际的问题,或者能够对一些现象提供有趣的见解。
大型数据集,包含从50个不同城市的街景中记录的各种立体视频序列,高质量的像素级注释为5000帧,另外还有一组较大的20000个弱注释帧。因此,数据集比先前的类似尝试大一个数量级。 pKey=xyW6a0ZmrJtjLw2iJ71Oqg&lat=20&lng=0&z=1.5) -数据集是一个新颖的大规模街道级图像数据集,包含25,000个高分辨率图像,注释为66个对象类别,另有37 地址:https://www.mrt.kit.edu/z/publ/download/velodyneslam/dataset.html) - 在德国卡尔斯鲁厄市使用Velodyne HDL64E-S2扫描仪记录的两个具有挑战性的数据集 数据可以从这里下载:百度云(地址:https://pan.baidu.com/s/1c2J2IFA#list/path=%2F)。 历史精华好文 专辑1:AI工程落地 专辑2:AI核心算法 专辑3:AI优质资源