首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 模型语料标注需要注意哪些?

    2.技术抽检要求 结合关键词、分类模型等技术进行抽检抽样数量:从全部语料中随机抽取不少于总量 10%的语料。合格标准:抽样合格率不应低于98%,保障技术抽检的语料质量。 3. 评估技术规范要求 规范内容:评估采用的关键词库、分类模型应符合文件要求。 确保在使用关键词、分类模型等技术进行语料抽检时,所使用的工具和模型是符合既定规范和标准的,从技术层面保障语料安全评估的科学性和准确性。 三、模型上线备案测试通道需求: 1.模型产品服务下载通道与测试账号-附加审核策略(10个) 2.模型产品服务下载通道与测试账号-不附加审核策略(10个) 3.支持生成文本的模型产品,需要提供API 仅生成图像或视频的模型产品,可不用提供API接口信息。

    29010编辑于 2025-09-04
  • 来自专栏速入大数据

    标注不规范,模型全白练:聊聊训练模型背后的规模化数据治理与标注流水线

    标注不规范,模型全白练:聊聊训练模型背后的规模化数据治理与标注流水线这两年模型火得不行,动不动就是「千亿参数」「万卡集群」「训练一次上千万美金」。 今天咱就不讲虚的,专门聊一聊:训练模型,到底需要一套什么样“能落地、可规模化”的数据治理与标注流程? 一、先把话说明白:模型不是“吃得多就聪明”很多人对模型的数据理解,停留在一句话上:数据越多,模型越强这话只对一半。我更愿意换个说法:高质量+可控分布+可追溯的数据,才能把算力变成智力。 你可以把模型当成一个超级学生:数据是教材标注是老师的讲解治理是教务系统教材乱、讲解不一致、教务系统一塌糊涂——就算你给他一天24小时补课,也只会补出一个“会背书但不懂事”的模型。 尤其在模型里,标注不只是打标签,而是对“什么是好回答”的共识建模。1️⃣先写“反例指南”,再写正例很多标注规范,上来就是一堆“好例子”。

    15610编辑于 2026-02-02
  • 来自专栏NewBeeNLP

    EMNLP23:模型时代的数据标注—FreeAL

    零、一些结论(太长不看版) 数据标注依然重要,完全监督、弱监督的小模型在很多场景下比(未精调)模型强; 利用LLM进行标注是完全可行的,小模型可以协同进行过滤、精炼模型的标签; 弱监督学习、主动学习这两个领域 也就是说,不论用模型还是小模型,其实还是有很多问题: (1)模型:我们可以用Zero/few-shot ICL解决下游任务,人力标注几乎为0,但是光靠模型呢,部署成本较高,效果不总是尽如人意。 没错,这就是我们FreeAL的框架——模型提供标注,小模型进行蒸馏,再回流模型进行更准的ICL。 2.1 模型标注 对于模型来说,我们要做的就是找到更多的示例样本去提升模型的few-shot性能。 ,并给几个无标注样本作为示意 ,让模型学习无标注文本的风格信息,然后生成符合标签信息的样本。

    1.8K10编辑于 2024-01-29
  • 来自专栏量子位

    模型都会标注图像了,简单对话即可!来自清华&NUS

    多模态模型集成了检测分割模块后,抠图变得更简单了! 只需用自然语言描述需求,模型就能分分钟标注出要寻找的物体,并做出文字解释。 在其背后提供支持的,是新加坡国立大学NExT++实验室与清华刘知远团队一同打造的全新多模态模型。 随着GPT-4v的登场,多模态领域涌现出一批新模型,如LLaVA、BLIP-2等等。 为了进一步扩展多模态模型的区域理解能力,研究团队打造了一个可以同时进行对话和检测、分割的多模态模型NExT-Chat。 NExT-Chat的最大亮点,是在多模态模型中引入位置输入和输出的能力。 虽然仅仅用了极少量的分割数据,NExT-Chat却展现出了良好的指代分割能力,甚至打败了一系列有监督模型(如MCN,VLT等)和用了5倍以上分割掩模标注的LISA方法。 作者猜测,这是由于pix2emb方法中LM loss和detection loss更难以平衡,以及Shikra更贴近现有的纯文本模型的预训练形式导致的。

    1.9K10编辑于 2024-01-04
  • 来自专栏机器之心

    Andrej Karpathy:神奇模型不存在的,只是对人类标注的拙劣模仿

    模型回答人类的对话内容,究竟有多少「智能」成分在里面? Karpathy 称:人工智能基本上是通过模仿人工标注数据来进行训练的语言模型。所以不要将对话视为「询问人工智能」的神秘主义,而应将其更多地视为「询问互联网上的平均数据标注者」。 无独有偶,今年 9 月,一篇来自 VRAIN、剑桥大学研究人员的 Nature 论文对 o1-preview 等模型进行了评测,发现很多对于人类来说简单的任务,模型却根本无法解决。 如果 RLHF 不管用,还能有什么样的奖励机制能帮助模型「准确遵循指令」呢? RBR 不仅限于安全训练,它们可以适应各种任务,其中明确的规则可以定义所需的行为,例如为特定应用程序定制模型响应的个性或格式。这或许为模型下一步性能突破提供了新的思路。

    19900编辑于 2025-02-14
  • 来自专栏AIGC 先锋科技

    视觉语言模型能否取代人类标注

    这项研究评估了视觉语言模型(VLMs)在图像数据标注方面的能力,通过将它们在CelebA数据集上的性能与人工标注进行比较,以质量和成本效益为标准。 最新的LLaVA-NeXT模型在1000张CelebA图像上的标注与原始人工标注有79.5%的一致性。 大型语言模型(LLMs)的最新发展激发了将其应用于文本数据集标注和生成的巨大兴趣。与此同时,对视觉语言模型(VLMs)[19]在处理无标签图像数据的能力的研究还很少。 基于相似质量和显著较低的成本,作者主张AI模型已经具备在某些范围内替代人工标注的潜力。 鉴于可比的质量和高成本优势,视觉语言模型(VLMs)在需要使用多个标注来提高准确性的场景中,具有替代一个或多个标注源的潜力。 受实验规模的限制,结果可能受到AI模型标注员的主观偏见的影响。

    37910编辑于 2024-10-29
  • 图像标注最佳实践提升模型精度指南

    图像标注基本最佳实践:提升模型精度的完整指南图像标注或图像注释是计算机视觉的基石。这是为图像数据分配有意义的标签或注释的过程,使计算机视觉模型能够学习模式并进行预测。 在本文中,您将了解一些图像标注的基本最佳实践,这些实践可以帮助您提高计算机视觉模型的准确性。另外请注意,文章中的"标签"和"注释"可能会互换使用。为什么准确的图像标注模型性能至关重要? 准确的图像标注是有效模型训练和验证的不可协商的要求。在数据标注过程中,您需要准确标注数据集中必要的特征,因为这些标签作为真实标准,在整个学习过程中指导模型。 虽然噪声是标注不良数据中的一个问题,但错误标注是另一个主要问题,导致模型难以区分关键特征。例如,如果某些"汽车"对象被标记为"飞机",那么模型可能难以区分汽车和飞机的特征。 图像标注中的关键挑战虽然图像标注对计算机视觉模型至关重要,但它也有自己的一系列挑战。这些挑战可能损害标注数据集的质量,并最终影响机器学习模型的性能。让我们仔细看看标注过程中一些最重要的挑战。

    33500编辑于 2025-10-23
  • 来自专栏深度学习自然语言处理

    双向LSTM-CRF模型用于序列标注

    跟随小博主,每天进步一丢丢 来源:知乎 作者:南开大学 概率论与数理统计硕士 薛晓琳 整理:python遇见NLP 一 文章介绍: 本文是2015年百度的三位作者提出的,主要研究了一系列基于LSTM模型上的序列标注任务的性能 模型包括LSTM,BI-LSTM,LSTM-CRF,BI-LSTM-CRF。序列标注任务分为三个:词性标注,分块和命名实体识别。结果显示BI-LSTM-CRF模型在三个任务上的准确度都很高。 模型训练时的学习率设为0.1,隐含层的数量设置为300,最终模型的性能对比结果如下: ? 五 总结 本文的创新点在于首次使用BI-LSTM-CRF模型进行了序列标注任务,并且模型结果表现不错。 后台回复【五件套】 下载二:南模式识别PPT后台回复【南模式识别】

    1.5K30发布于 2020-09-14
  • 来自专栏机器之心

    DeepMind终结模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源

    机器之心报道 编辑:杜伟 DeepMind 这篇论文一出,人类标注者的饭碗也要被砸了吗? 模型的幻觉终于要终结了? 今日,社媒平台 reddit 上的一则帖子引起网友热议。 帖子讨论的是谷歌 DeepMind 昨日提交的一篇论文《Long-form factuality in large language models》(语言模型的长篇事实性),文中提出的方法和结果让人得出大胆的结论 :对于负担得起的人来说,语言模型幻觉不再是问题了。 我们知道,语言模型在响应开放式主题的 fact-seeking(事实寻求)提示时,通常会生成包含事实错误的内容。DeepMind 针对这一现象进行了一些探索性研究。 研究者还使用 LongFact,对四个模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 种流行的语言模型进行了基准测试,结果发现较大的语言模型通常可以实现更好的长篇事实性。

    33910编辑于 2024-04-12
  • 来自专栏创作是最好的自我投资

    通用模型VS垂直模型

    在人工智能这个充满无限可能的领域内,通用模型和垂直模型各有千秋。就我个人而言,在二者之间的选择上,并不存在偏向某一方的倾向。我觉得应当依据实际应用场景的具体需求,来挑选最为契合的模型。 通用模型通用模型,乃是旨在应对多种任务与数据类型的庞然物级人工智能模型。 在知识覆盖的广度方面,通用模型无疑具有明显的优势。当我们对于当下所需模型所涉及的精确专业领域的界限感到模糊不清时,选择通用模型无疑是一种明智之举。垂直模型接下来谈谈垂直模型。 然而,由于垂直模型的训练内容聚焦于当前行业,其涉猎的范围更集中,数据针对性更强,所以在提供专业咨询时往往更加精准、细致,这也正是垂直模型的独特价值所在。 因此,对于通用模型或者垂直模型,更倾向于哪一方不取决于个人想法,而是取决于用户需要。

    76301编辑于 2024-12-30
  • 来自专栏小洁叫你mysql

    【AI模型】训练Al模型

    模型超越AI 目前所指的模型,是“大规模深度学习模型”的简称,指具有大量参数和复杂结构的机器学习模型,可以处理大规模的数据和复杂的问题,多应用于自然语言处理、计算机视觉、语音识别等领域。 本文将探讨模型的概念、训练技术和应用领域,以及与模型相关的挑战和未来发展方向。 模型是指具有庞大参数数量的机器学习模型。传统的机器学习模型通常只有几百或几千个参数,而模型则可能拥有数亿或数十亿个参数。 训练模型的挑战 训练模型需要应对一系列挑战,包括: 以下是与模型相关的一些代码示例: 计算资源需求: import tensorflow as tf # 指定使用GPU进行训练 with tf.device 更智能的模型压缩技术:模型压缩和加速技术将继续发展,以减小模型的计算和存储开销。 更好的计算平台支持:为了支持训练和部署模型,计算平台将继续改进,提供更强大的计算资源和工具。

    1.5K30编辑于 2023-10-10
  • 来自专栏量子位

    国内模型数据之困有解了!头部标注厂商打造,专为垂直行业落地

    白交 发自 凹非寺 量子位 | 公众号 QbitAI 模型落地垂直行业,数据已打响第一枪。 现在,专门面向垂直模型的数据解决方案来了—— 直接帮助通用模型产业落地那种。 高质量数据,作为模型时代下的关键“燃料”,直接决定着模型效果的好坏。 不少业内大佬包括张勇、李彦宏、周鸿祎等在内都曾谈到模型产业落地中数据的价值和意义。 据介绍,云测数据的数据标注平台集成了既有像语音分类、语音撰写、文生图、视频标注等传统标注工具支持,也有像问答对编写、Prompt编写、多轮对话等模型特定标注工具。这一阶段需要人机协同来运作。 除了电商之外,云测数据在保险、智驾、智能家居领域都已经有了相关模型合作落地。 为什么是云测?为什么是垂直模型? 现在,通用模型浪潮已经趋于冷静,各领域企业都在思考如何应用模型来降本增效。 如果说,自动驾驶让数据标注告别人力走向了工具/平台标注,那么模型将数据标注重新迎来了洗牌时刻—— 真正从劳动密集型变为知识密集型、技术密集型。

    74631编辑于 2023-09-27
  • 来自专栏机器学习AI算法工程

    fastNLP工具包, 快速实现序列标注模型

    fastNLP是一款轻量级的自然语言处理(NLP)工具包,目标是快速实现NLP任务以及构建复杂模型。 使用Metric快速评测你的模型 8. 使用Modules和Models快速搭建自定义模型 9. 快速实现序列标注模型 10. 使用Callback自定义你的训练过程 扩展教程 Extend-1. 序列标注 这一部分的内容主要展示如何使用fastNLP实现序列标注(Sequence labeling)任务。您可以使用fastNLP的各个组件快捷,方便地完成序列标注任务,达到出色的效果。 在本tutorial中我们将通过fastNLP尝试写出一个能够执行以上任务的模型。 下面我们以微博命名实体任务来演示一下在fastNLP进行序列标注任务。 ? 模型构建 首先选择需要使用的Embedding类型。

    1.6K20发布于 2021-04-01
  • 来自专栏PaddlePaddle

    转载|使用PaddleFluid和TensorFlow训练序列标注模型

    循环神经网络的是深度学习模型中最为重要的一部分,这一篇我们以序列标注任务为例将会构造一个更加复杂的循环神经网络模型用于命名实体识别任务。 sh download.sh 在终端运行以下命令便可以使用默认结构和默认参数运行 PaddleFluid 训练序列标注模型。 常见的分词,词性标注,语义角色标注,命名实体识别,甚至自动问答(QA)都可以通过序列标注模型来实现。这一篇我们将训练一个序列标注模型完成命名实体识别的任务。 我们先来看看,什么是序列标注问题呢? 图 2 是用 BIO 表示标注序列中命名实体的具体示例。 ? ▲ 图2. BIO标注方法示例 模型概览 图 3 是本篇模型模型结构概览。 ? ▲ 图3. 序列标注模型结构概览 我们要训练的序列标注模型,接受:一个文本序列作为输入,另一个与输入文本序列等长的标记序列作为学习的目标。

    89830发布于 2018-07-26
  • 来自专栏三木的博客

    机器学习平台技术栈之 Label Studio:打通数据飞轮与模型 RLHF 的标注中枢

    机器学习平台技术栈之 Label Studio:打通数据飞轮与模型 RLHF 的标注中枢 在整个机器学习工程(MLOps)生命周期中,“数据准备”往往是最耗时、最昂贵,却又最决定模型上限的基础环节。 当平台规模扩大,多模态(图文音视混合)需求爆发,尤其是进入语言模型(LLM)的 RLHF(基于人类反馈的强化学习)时代后,割裂的标注工具直接成了阻碍业务迭代的瓶颈。 从其底层的核心概念溯源,到基于 Django 与 React/MST 的全栈架构设计,再深入挖掘其在“云端大文件引用存储隔离”、“主动学习(Active Learning)预标注流水线”以及“模型 RLHF 从传统小模型拥抱 LLM:RLHF 实践落地 随着平台技术重心从训练监督学习转向模型的调优与价值对齐,传统的边界框等标注显得不再那么重要,取而代之的是对 **AI 助手回复的排序和打分 (RLHF - /VLMs (视觉语言模型)训练范式切换断裂带的时代技术负债。

    20910编辑于 2026-04-01
  • 来自专栏数据猿

    数据堂COO何鸿凌:模型时代,数据标注战略价值越发凸显 | 数据猿专访

    模型时代对于数据标注而言,可以说是2012年那场比赛之后,又一个颠覆性时刻,在很多方面都带来了巨大的变化: ·标注对象发生质变:从识别物体转向标注“思维链”, 模型出现之后,AI的任务从听、说、读、 但模型不一样,它有强大的泛化能力。例如我们只需要给模型学习一万个化学方程式,它可以推导出更多的化学知识。 数据堂打出一套组合拳 面对模型新需求和新形势,数据堂打出一套组合拳: 针对模型应用的两环节——训练和推理进行突破。 2025年,多模态已经成为模型的主旋律。多模态模型打破了数据藩篱,实现文本、图像、音频的深度协同。 针对此,数据堂专门开发了图像文本标注工具和工艺。 自动驾驶—数据标注新战场 除了聚焦模型,数据堂也正在其第二业务赛道——自动驾驶领域,狂飙突进。 自动驾驶这个业务场景的特点,是数据密集且运行环境开放。

    33810编辑于 2025-10-21
  • 来自专栏学习

    开源模型与闭源模型

    在人工智能(AI)和机器学习(ML)的快速发展过程中,模型(Large Models)已经成为推动技术进步的重要力量。当前,业界存在两种主要的模型开发模式:开源模型和闭源模型。 一、开源模型 开源模型是指开发者将模型的代码和训练数据公开,使得任何人都可以访问、修改和使用这些资源。 二、闭源模型 闭源模型是指模型的代码和数据不对外公开,通常由商业公司开发和维护。代表性的闭源模型包括OpenAI的GPT-3和Google的BERT。 三、开源模型与闭源模型的对比 1.透明性与可控性: 开源模型的透明性更高,任何人都可以查看和验证其代码和数据,确保模型的行为符合预期。这对于学术研究和技术验证非常重要。 闭源模型通过控制代码和数据的访问,能够更好地保护用户隐私和数据安全,降低被恶意利用的风险。 五、总结 开源模型和闭源模型各有优缺点,适合不同的应用场景和需求。

    1.7K10编辑于 2024-10-09
  • 来自专栏量子位

    3D模型分割新方法解放双手!不用人工标注,只需一次训练,未标注类别也能识别|港&字节

    丁润语 投稿 量子位 | 公众号 QbitAI 3D模型分割现在也解放双手了! 香港大学和字节梦幻联动,搞出了个新方法: 不需要人工标注,只需要一次训练,就能让3D模型理解语言并识别未标注过的类别。 比如看下面这个例子,未标注的(unannotated)黑板和显示器,3D模型经过这个方法训练之后,就能很快“抓准”目标进行划分。 这样一来,研究团队就能够得到成对的3D点云-⾃然语⾔,这一把直接解决了人工标注的问题。 PLA用得到的“3D点云-⾃然语⾔”对和已有的数据集监督来让3D模型理解检测和分割问题定义。 语义分割任务超越基准65% 研究⼈员通过测试3D开放世界模型在未标注类别的性能作为主要衡量标准。 先是在ScanNet和S3DIS的语义分割任务上,PLA超过以前的基线⽅法35%~65%。 百度袁佛玉、智源林咏华、澜舟科技周明、小冰徐元春、科大讯飞高建清、启元世界袁泉、云舶科技梅嵩、特赞王喆、微软关玮雅、源码资本黄云刚、元语智能朱雷、无界Ai马千里、Tiamat青柑、峰瑞资本陈石等来自产学研界咖嘉宾

    53630编辑于 2023-03-25
  • 来自专栏IT从业者张某某

    模型模型的幻觉问题

    参考 模型中的涌现 OpenAI 科学家:幻觉是模型与生俱来的特性,而非缺陷 模型「幻觉」,看这一篇就够了|哈工大华为出品 模型 什么是模型 语言模型(LLM)是基于海量文本数据训练的深度学习模型 模型模型发展如下图 涌现 参考:模型中的涌现 什么是涌现?先从蚂蚁开始说起。蚂蚁是自然界中一种个体非常简单,但是群体能力非常强大的生物。 如何解决模型的「幻觉」问题? 方向一:什么是模型「幻觉」 模型出现幻觉,简而言之就是“胡说八道”。 用文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。 OpenAI 科学家 Andrej Karpathy关于模型幻觉 在 Karpathy 看来: 从某种意义上说,语言模型的全部工作恰恰就是制造幻觉,模型就是「造梦机」。 只有模型助手存在幻觉问题。 方向二:造成大模型「幻觉」的原因 那么致使模型产生幻觉的原因都有哪些?

    1.8K11编辑于 2024-01-04
  • 来自专栏数据派THU

    原创 | 模型扫盲系列——初识模型

    为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了模型这一概念。本文将从模型的原理、训练过程、prompt和相关应用介绍等方面进行分析,帮助读者初步了解模型。 为了提高模型的性能,研究者们不断尝试增加模型的参数数量,从而诞生了模型这一概念。本文讨论的模型将以平时指向比较多的语言模型为例来进行相关介绍。 这类结构的模型适用于需要生成序列的任务,可以从输入的编码中生成相应的序列。同时还有一个重要特点是可以进行无监督预训练。在预训练阶段,模型通过大量的无标注数据学习语言的统计模式和语义信息。 主流的预训练阶段步骤基本都是近似的,其中最重要的就是数据,需要收集大量的无标注数据,例如互联网上的文本、新闻、博客、论坛等等。 Step 1.预训练模型的有监督微调 先收集一个提示词集合,并要求标注人员写出高质量的回复,然后使用该数据集以监督的方式微调预训练的基础模型

    21.2K29编辑于 2023-11-22
领券