首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏深度学习自然语言处理

    【干货】如何打造高质量的NLP数据

    阅读大概需要21分钟 来自:夕小瑶的卖萌屋 今天发烧睡了一天T^T,刷了刷知乎,刷到了这个问题 知乎:如何打造高质量的机器学习数据? ,尽早构造数据迭代闭环 关于复杂NLP任务 什么是高质量 刚入坑的一些小伙伴可能会以为“高质量”=“超级干净”,于是为了追求“高质量”而疯狂的预处理,最后哭了╮(╯▽╰)╭。 这应该是做一个高质量数据前首先要考虑的问题。 TriviaQA[6]、searchQA[7];再比如“一条Twitter中包含的emoji可以反映这条Twitter的(细粒度)情感”,于是有了情感分类数据TwitterSentiment[8]和情感可控对话生成数据 ,会让你感受到产出一个高质量的任务完成型对话数据是一个很有挑战的工作,自己从头摸索的话可能到头来只会收获一脸懵逼╮( ̄▽ ̄””)╭ 所以面对一些比较复杂的NLP任务的时候,一定一定要记得先精读一下最新最权威的数据

    1.9K10发布于 2019-08-19
  • 来自专栏大数据文摘

    资源 | 机器学习高质量数据大合辑

    数据文摘出品 编译:蒋宝尚 在机器学习中,寻找数据也是非常重要的一步。质量高或者相关性高的数据对模型的训练是非常有帮助的。 那么用于机器学习的开放数据有哪些呢? 文摘菌给大家推荐一份高质量数据,这些数据或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。 首先,在搜索数据时,在卡内基·梅隆大学有以下说法: 数据不应混乱,因为你不希望花费大量时间清理数据数据不应该有太多行或列,因此很容易使用。 数据越干净越好 —— 清洗大型数据相当耗时。 https://archive.org/details/comma-dataset 城市景观数据:记录50个不同城市的城市街道场景的大型数据。 http://www.lara.prd.fr/benchmarks/trafficlightsrecognition WPI 数据:交通灯、行人和车道检测的数据

    95940发布于 2018-11-23
  • 高质量数据数据治理,别再花冤枉钱了

    最近和几位企业数据负责人聊天,发现一个特别普遍的现象:很多公司听说要上AI,赶紧找供应商咨询"高质量数据怎么建"。结果对方一看企业现状,直接劝退:"你们连数据治理都没做好,谈什么数据高质量数据:这是个"专用产品"高质量数据是专门为AI模型训练设计的结构化数据产品。它不是简单的"干净数据",而是针对特定应用场景、经过系统化处理的"燃料"。 高质量数据的特征:场景牵引(为某个具体的AI应用服务)高质量标注(数据打好了标签,模型才能学习)结构化格式(训练、验证、测试分好了)数据增强(可能包含合成数据、增强数据)丰富元数据(记录数据来源 第三阶段:按需构建高质量数据(解决"模型能不能训")只有在前两个阶段打好基础后,才适合针对特定AI场景建设数据。这个阶段的核心目标是为AI模型训练提供高质量、可用的数据燃料。 我一直坚持一个观点:数据质量是企业的核心竞争力。而搞清楚数据治理、高质量数据高质量数据的关系,是少走弯路、少花冤枉钱的关键。

    38311编辑于 2026-02-05
  • 来自专栏磐创AI技术团队的专栏

    资源 | 机器学习高质量数据大合辑

    编译:蒋宝尚 转载自:大数据文摘,未经允许不得二次转载 在机器学习中,寻找数据也是非常重要的一步。质量高或者相关性高的数据对模型的训练是非常有帮助的。 那么用于机器学习的开放数据有哪些呢? 文摘菌给大家推荐一份高质量数据,这些数据或者涵盖范围广泛(比如 Kaggle),或者非常细化(比如自动驾驶汽车的数据)。 首先,在搜索数据时,在卡内基·梅隆大学有以下说法: 数据不应混乱,因为你不希望花费大量时间清理数据数据不应该有太多行或列,因此很容易使用。 数据越干净越好 —— 清洗大型数据相当耗时。 https://archive.org/details/comma-dataset 城市景观数据:记录50个不同城市的城市街道场景的大型数据。 http://www.lara.prd.fr/benchmarks/trafficlightsrecognition WPI 数据:交通灯、行人和车道检测的数据

    96740发布于 2018-11-23
  • 从0开始全面认识高质量数据建设(3)

    “潜在高质量数据”,并厘清各部门在其中扮演的供给方与需求方角色,明确权责关系。 第五步:形成高质量数据清单完成以上步骤后,根据数据的具备条件、需求频度,形成最终可以产出的高质量数据清单。 数据规划环节该环节主要目标是完成高质量数据的编目化及内容设计,基于筛选确认的高质量数据清单,对每个数据进行分类分级、数据特征、标签、元数据、样例数据整理,编制数据内容规范《高质量数据目录建设标准 这里可以参考从0开始全面认识高质量数据建设(1)中提到的建设指南和政策依据,规范包括:高质量数据内容框架高质量数据分类体系高质量数据编目要求然后重点来了,针对于上述的高质量数据清单,我们其实是可以进一步拆分分类的 ,比如说按照从0开始全面认识高质量数据建设(1)中提到的可以拆分为通识类数据、行业通识类数据、行业专识类数据,但是一般而言,内部建设智能体场景时,只有行业通识类数据和行业专识类数据

    83421编辑于 2026-02-16
  • 从0开始全面认识高质量数据建设(4)

    引言上一篇中,我们了解了高质量数据建设流程中至关重要的“需求调研”与“数据规划”两大环节,掌握了从现状摸底、场景拆解到供需确认的五步调研法,成功输出了高质量数据清单;还深入学习了如何通过基本信息编目 、内容结构设计及生产加工要求的明确,为数据制定出详尽的《目录建设标准》。 数据工程实施环节这一环节是将抽象的数据清单转化为可直接支撑 AI 模型训练与业务应用的高质量数据资产的关键,重点涵盖数据采集、数据预处理、数据标注三大核心模块,通过全链路的工程化能力,确保数据从源头到交付的每一步都可控 、可追溯、高质量。 标注数据生成入库:已标注数据沉淀为数据资产,可直接用于模型开发、训练、推理等环节,同时支持标注数据导出到本地,满足灵活的应用需求。

    71321编辑于 2026-02-17
  • 从0开始全面认识高质量数据建设(5)

    引言上一篇中,我们了解了数据工程实施环节的核心全流程,深入掌握了如何通过多样化的采集手段打破数据孤岛,利用智能化的预处理插件清洗多源异构数据,以及通过端到端的标注体系将原始样本转化为高质量的监督学习数据 数据编目上架数据编目上架是将经过采集、预处理、标注等环节产出的高质量数据资产,进行标准化 “身份登记” 并纳入统一管理的关键环节。 管理信息(来处与去处)来源系统公安警情系统、消防接处警系统、120急救调度系统、应急管理局综合平台管理单位城市指挥中心数据管理科业务管理标签应急指挥、多部门融合、核心业务质量检测符合情况符合《城市指挥中心高质量数据目录建设标准 本环节以《高质量数据 质量评测规范(征求意见稿)》为指导,从说明文档维度、数据质量维度、模型应用维度三大核心维度,对数据进行全面体检,确保其满足 AI 模型开发、训练及业务场景的核心要求。 在《高质量数据 质量评测规范( 征求意见稿) 》中,规范了以下三大检测维度:说明文档维度:要求数据的说明文档完整,需包含基本信息、内容特征、建设过程及应用说明等内容。

    48310编辑于 2026-02-19
  • 来自专栏AI SPPECH

    测试数据生成:AI如何自动创建高质量测试数据

    引言 在软件测试中,测试数据的质量直接影响测试效果。高质量的测试数据能够帮助测试工程师发现更多潜在的缺陷,提升测试覆盖率,确保软件质量。 本文将深入探讨AI如何自动创建高质量的测试数据,帮助测试工作者提升测试效率和质量。 让我们一起探索AI如何自动创建高质量的测试数据。 要点 描述 互动 传统挑战 耗时耗力、覆盖不全、缺乏多样性 你在测试数据生成中遇到过哪些挑战? , 100]) # 生成图像 generated_images = generator(noise, training=False) # 可视化生成的图像 plt.figure(figsize=(8, 8)) for i in range(generated_images.shape[0]): plt.subplot(4, 4, i+1) plt.imshow(generated_images

    70921编辑于 2025-11-13
  • 来自专栏ATYUN订阅号

    如何识别、抓取和构建高质量机器学习数据(下)

    构建数据 到目前为止,我们的数据质量可能在以下方面有一些改进: 清理数据 目前提取的数据可能有一些记录丢失了基本的数据信号。它们可以被安全地丢弃。 标准化 数据中可能存在一些属性,它们在所有记录中可能没有相同的含义。在这种情况下,我们需要使用我们的直觉(或一些基线)来标准化跨数据的属性。 结构化 一旦我们确信我们所做的所有的预处理数据良好,剩下要做的最后一件事是将数据以一个共同的格式如CSV, JSON等新型结构化, 以便有兴趣使用数据的人能够轻松地读取和导入数据。 size": "c", 6 "hips": "44.0", 7 "bra size": "42", 8 "category": "tops", 9 "length": "slightly 在此过程中,请记住本文的以下主要观点: 无论您是否考虑到特定的问题,请尝试识别数据的EssentialData信号。这将指导数据搜索过程。 结合来自多个数据源的数据,以提高数据的有用性和质量。

    65110发布于 2019-05-13
  • 从0开始全面认识高质量数据建设(6)

    然而,高质量数据若被束之高阁,便无法产生实际价值。只有当数据顺畅地流向需求方,并在业务场景中发挥作用时,其价值才得以真正释放。 那为什么数据集市这么重要?之前我们构造的数据仓库或者说高质量数据文件不可以直接拿来用吗?可以是可以,但是不够便捷,不够规范! 在将数据发布到数据超市之前,需要确保数据已经完成了前面几步操作,保证数据已经达到了高质量数据的标准和质量要求,后面的发布过程,其实同普通数据的上架是一致的了,主要包含如下几步:发布申请提交:数据提供方 (我方)在数据管理平台上提交数据发布申请,填写发布信息;发布审核:数据管理部门对发布申请进行审核;数据上架:审核通过后,数据将被自动发布到数据超市,并生成唯一的数据ID和访问链接。 上架后,数据将在数据超市中展示;发布后管理:数据发布后,数据提供方需要进行持续的管理和维护。

    35510编辑于 2026-02-20
  • 从0开始全面认识高质量数据建设(7)

    但是这里我想说的是,在高质量数据建设这个事情上不一样。第一,数据的质量不是天然形成的,而是设计出来的。 过去企业做业务系统,数据是业务的副产品,有就用、没有就算了。 但高质量数据不同,它要求数据具备场景适配性、多模态融合能力与AI可训性,这些特性不可能靠自然积累获得,必须从源头规划数据采集标准、标注规范、质量评估体系。 但在"人工智能+"时代,数据是核心生产要素,高质量数据是基础设施。基础设施能不能建好,决定了企业未来五到十年的竞争力。这笔账,值得好好算一算。 在功能方面,基本需要覆盖以下三大能力:数据生产工具链数据综合管理数据服务接口第四,从"有数据"到"有好数据"平台建好了,标准也有了,接下来就是真刀真枪地生产高质量数据。 因为在这个人工智能+的时代,谁掌握了高质量数据,谁就掌握了未来的主动权。至于具体做法对不对,欢迎大家批评指正。毕竟高质量数据建设这事儿,全行业都还在探索,没有标准答案,只有不断试错、不断迭代。共勉。

    47850编辑于 2026-02-23
  • 来自专栏计算机视觉战队

    旷视 | 大且高质量数据用于目标检测

    导读 今天,“计算机视觉”给大家介绍一个新的大型目标检测数据Objects365,它拥有超过600,000个图像,365个类别和超过1000万个高质量的边界框。 摘要先前看 Objects365可用作更好的特征学习数据,用于对位置敏感的任务,例如目标检测和分割。 今天我们分享的将进一步介绍了一种新的大规模、高质量的目标检测数据Objects 365,主要集中在三个方面:规模、质量和泛化。 ? 02 ? 这个注释管道保证了高效率获得高质量的注释。 新的Objects365数据直接解决了上述两个问题,并为特性学习提供了更好的选择。

    1.6K10发布于 2019-12-26
  • 来自专栏ATYUN订阅号

    如何识别、抓取和构建高质量机器学习数据(上)

    因此,让我们开始看看如何识别、抓取和构建一个高质量的机器学习数据。 本文的重点是解释如何通过实际示例和代码片段构建高质量数据。 在整篇文章中,我将引用我收集到的三个高质量数据,分别是服装尺寸推荐Fit数据,新闻类数据,讽刺检测数据来解释各个点。为了做好准备,接下来我将简要解释每个数据的内容。 如果你希望收集和构建一个高质量数据,你可能会遇到以下两种情况之一: 你正在寻找能够解决特定问题的数据。(问题已知) 你正在寻找可用于解决有趣问题的数据。 如果找不到单个数据源,请查看是否可以将多个数据源的数据组合起来构建数据:讽刺检测数据是将多个数据源的数据组合起来构建完整且高质量数据的完美示例。 高质量数据的另一个标志是,它可以用来解决有趣的和实际的问题,或者能够对一些现象提供有趣的见解。

    1.3K20发布于 2019-05-14
  • 从0开始全面认识高质量数据建设(2)

    总体架构总体架构图基本示意图如下:一套标准,完善内部“高质量数据”的标准规范根据上一篇文章中提到的《高质量数据目录建设标准》、《高质量数据质量管理标准》、《高质量数据服务使用规范》、《高质量数据管理制度 》,需要逐步构建起自己内部的高质量数据标准规范,主要阶段及依据如下图所示:标准规范示例格式如下:展开代码语言:TXTAI代码解释1范围2规范性引用文件3术语和定义3.1模型3.2高质量数据3.3元数据 3.4值域3.5数据标注4高质量数据总体定义4.1高质量数据内容框架4.2高质量数据分类体系4.3高质量数据分级要求4.4高质量数据编目要求5行业通识数据5.1XX数据15.1.1基本信息 +高质量数据特有属性高质量数据目录的建设,并非是简单罗列数据名称,而是包含信息资源分类分级属性+高质量数据特有属性两大部分。 一套工具,围绕数据目录建设,工具支撑生产、管理及服务业务流程开展高质量数据的管理与应用不再依赖人工经验,而是通过高质量数据管理子系统实现全流程数字化、标准化管控。

    60731编辑于 2026-02-11
  • 从0开始全面认识高质量数据建设(1)

    建设标准:2025年陆续推出相关标准草案《高质量数据分类指南》(TC609-5-2025-03)是由全国数据标准化技术委员会发布的技术文件,旨在为高质量数据提供一套清晰、统一的分类体系与方法,以解决当前高质量数据分类标准缺失 《高质量数据格式要求》(TC609-5-2025-02)是由全国数据标准化技术委员会发布的技术文件,旨在为高质量数据提供统一的元数据格式规范,以解决数据格式不规范、不统一的问题,促进数据的可读性 《高质量数据建设指南》(TC609-5-2025-01)是由全国数据标准化技术委员会发布的技术文件,旨在为高质量数据的建设提供全生命周期的指导,推动我国人工智能数据基础设施的规范化发展。 什么是高质量数据在项目实践中,我经常被问到:"到底什么是高质量数据?"这个问题看似简单,实则涉及多个维度的考量。 高质量数据分类及特征高质量数据大致可以分为三大类,分别是通识数据、行业通识数据和行业专识数据

    85032编辑于 2026-02-06
  • 来自专栏决策智能与机器学习

    高质量自动驾驶数据大汇总「AI优质资源」

    数据使用3D LiDAR扫描仪收集的大型全环绕3D多目标检测和跟踪数据。其包含160个拥挤且高度互动的交通场景,在27,721帧中共有100万个标记实例。 该数据由140万张图像、39万次激光雷达扫描和140万个3D人工注释边界框组成,是迄今为止公布的最大的多模态3D 无人驾驶数据。 ? 大型数据,包含从50个不同城市的街景中记录的各种立体视频序列,高质量的像素级注释为5000帧,另外还有一组较大的20000个弱注释帧。因此,数据比先前的类似尝试大一个数量级。 该立体数据是从移动的车辆记录的,并且包含高分辨率立体图像,其补充有从IMU,GPS数据和来自汽车计算机的数据获得的定向和加速度数据。 用8个高分辨率摄像头录制的4个视频序列安装在一辆面包车上,总计超过3个小时,带有交通标志注释,摄像机校准和姿势。大约16000张背景图片。

    3K10发布于 2020-11-11
  • 来自专栏GEE数据

    Landsat 8 C2 RAW 数据

    数据提供了高质量的地球观测数据,可用于研究地表和大气的各种变化。 Landsat 8 C2 RAW 数据是基于Landsat 8 卫星获取的原始遥感数据。 Landsat 8 C2 RAW 数据包含了从Landsat 8 卫星获取的原始遥感数据,这些数据以原始数值形式提供,没有被人为处理或校正。 持续更新:Landsat 8 C2 RAW 数据是一个持续更新的数据。每当Landsat 8 卫星获取新的遥感数据时,这些数据将被添加到数据集中,以保持数据的最新性。 此外,USGS 还提供了一些教程和培训材料,帮助用户理解和使用Landsat 8 C2 RAW 数据。 总之,Landsat 8 C2 RAW 数据是一组提供高质量地球观测数据的卫星遥感数据。 key为LANDSAT_8/02/T1/RAW的Landsat8_C2_RAW类数据 * @Name : Landsat8_C2_RAW_T1数据 */ /** */ //指定检索数据

    49710编辑于 2024-02-18
  • 来自专栏Python与算法之美

    YOLOv8 训练自己的数据

    本范例我们使用 ultralytics中的YOLOv8目标检测模型训练自己的数据,从而能够检测气球。 #安装 ! ultralytics -i https://pypi.tuna.tsinghua.edu.cn/simple import ultralytics ultralytics.checks() 一,准备数据 训练yolo模型需要将数据整理成yolo数据格式。 然后写一个yaml的数据配置文件。 device='cuda:0', grad_fn=<MulBackward0>) from torchkeras import KerasModel #我们需要修改StepRunner以适应Yolov8数据格式

    3.8K31编辑于 2023-09-05
  • 来自专栏CNNer

    【目标检测数据】开源 | 旷视科技--Objects365:最新大规模高质量目标检测数据

    Objects365 A Large-scale, High-quality Dataset for Object Detection 原文作者:Shuai Shao 内容提要 本文引入了一个新的大规模目标检测数据 通过精心设计的三步注释管道,手工标注了超过1000万个高质量的边框。它是迄今为止最大的目标检测数据(带有完整的注释),为社区建立了更具挑战性的基准。 Objects365作为一个更好的特征学习数据,用于对位置敏感的任务,如目标检测和语义分割。

    2.6K42发布于 2020-09-23
  • 来自专栏脑机接口

    浙大 CBIST团队发布高质量的多中心MRI公开数据

    浙大生仪学院磁共振平台的CBIST团队近期公开了一批包含三位旅行志愿者在十家不同中心采集的磁共振扩散成像数据数据的具体描述和简要质量报告已经在Scientific Data发表。 ? 本次公开的数据严格控制了磁共振机型(西门子Prisma 3T)和采集参数,并召集三位旅行志愿者在十家中心间穿梭采集。 数据涵盖了在10台同型号MRI扫描仪中采集了3名旅行者被试的脑部T1加权结构和多b值扩散加权成像(DWI)数据。在其中一台扫描仪内,对3名被试额外重复采集了2组数据。 ? 颜色由纤维分布的方向编码 我们诚挚邀请各位同行对该公开数据进行测试和应用,欢迎更进一步的交流合作。 感谢国家基然科学基金、中央高校基本业务费等项目对本课题的大力支持。 Sci Data 7, 157 (2020). https://doi.org/10.1038/s41597-020-0493-8 内容来源于:CBIST ZJU

    1.4K10发布于 2020-06-30
领券