搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

大模型语料标注需要注意哪些？
一、语料类型 1.自采语料 2.商业语料 3.开源语料二、抽检要求 1.人工抽检要求具体做法:从全部语料中随机抽取不少于 4000 条语料:合格标准:合格率不应低于96%。以此来保证语料在人工抽检环节的质量水平。 2.技术抽检要求结合关键词、分类模型等技术进行抽检抽样数量:从全部语料中随机抽取不少于总量 10%的语料。合格标准:抽样合格率不应低于98%，保障技术抽检的语料质量。 3. 评估技术规范要求规范内容:评估采用的关键词库、分类模型应符合文件要求。确保在使用关键词、分类模型等技术进行语料抽检时，所使用的工具和模型是符合既定规范和标准的，从技术层面保障语料安全评估的科学性和准确性。
30110编辑于 2025-09-04
语料库构建与主动学习标注工具解析
大多数自然语言处理项目的成功关键取决于用于训练和评估模型的标注数据质量。本期节目中，某机构的Matt和Ines介绍了如何通过一款工具提升数据标注和模型开发工作流程。该工具是一款基于Python库实现的标注工具，提供Web应用程序和命令行界面。开发者可自定义输入数据流并设计简易标注界面，其核心能力包括：将复杂标注决策分解为系列二进制选择与某自然语言处理库实现无缝集成在主动学习框架中支持实时模型更新策略通过配方脚本（GitHub开源）实现工作流定制该方案通过动态调整模型训练流程，使系统能够根据新增标注数据持续优化模型性能，有效解决了传统标注工作中效率低下与一致性难题。
15710编辑于 2025-09-19
来自专栏JasonhavenDai
人民日报标注语料库（PFR）1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总
PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的，严格按照人民日报的日期、版序、文章顺序编排的。标号也作为一个词进行标注，词性固定为“m（数词）”。一篇文章里面的段落之间是不空行的，在两篇文章之间，会有一个空行，表示文章的分界线，同时，下一篇文章的“篇章号-段号”都会有所改变。正文部分按照规范已经切分成词，并且加上标注，标注的格式为“词语/词性”，即词语后面加单斜线，再紧跟词性标记。词与词之间用2个单字节空格隔开。每段最后的词，在标记之后也有2个单字节空格，保持格式一致。如“通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w”中，用“[ ]”合起来的部分是一个完整的机构团体名称，方括号后面紧跟标注nt，nt之后空两个单字节空格，保持了格式的一致 /w 4.生语料库和熟语料库语料库中存放的是在语言的实际使用中真实出现过的语言材料，语料库是以电子计算机为载体承载语言知识的基础资源，真实语料需要经过加工
5.9K80发布于 2018-04-11
来自专栏CPS推广奖励
CPS 11月额外激励规则
【双十一首购订单额外现金奖励】：①为客户首购订单；②【个人/企业首购订单奖励】实付订单金额≥45，【企业首购订单奖励】实付订单金额≥150；③满足CPS返佣条件订单（详见CPS推广奖励规则）（2）【个人点击查看返佣产品详情举例：某推广者为5星级会员，11月首购订单佣金16万元，复购/续费订单佣金5万元，11月总计佣金为16万+5万=21万元，由于复购返佣计入佣金封顶，则该推广者11月最终可得到账金额为 image.png11月规则优化历史积分会员积分规则的退款减分项：如在月结之前，当月推广的客户有退款/降配行为，则扣减当月加分；如在月结之后，推广的客户有退款/降配行为，则扣减客户数（退款/降配）*2分优化后积分会员积分规则的退款减分项：如在月结之前， 1、若全额退款，减扣积分为该订单历史所加积分（包括有效客户和企业客户的积分）；2、若部分退款/降配，实际减积分=（当前实付金额/1600）*2-历史所加积分 11月规则优化.png*本规则从2021年11月1日0时起生效，11月1日0时后的推广订单按最新积分规则执行，10月31日23时59分59秒前的推广订单按之前积分规则执行。
17.2K410编辑于 2022-08-25
来自专栏java开发的那点事
11-Location的匹配规则解析
Location的匹配规则解析默认匹配(普通匹配) location / { root /home; } 映射 / 路径到 /home文件夹下精准匹配 location = /img/4k.jpg
42440编辑于 2022-09-13
来自专栏沉默王二
Overriding：嘿嘿，就不告诉你这 11 条规则
重写（Overriding）算是 Java 中一个非常重要的概念，理解重写到底是什么对每个 Java 程序员来说都至关重要，这篇文章就来给大家说说重写过程中应当遵守的 11 条规则。规则四：重写的方法必须返回相同的类型。规则六：重写后的方法不能抛出比父类中更高级别的异常。这条规则只适用于可检查的异常。 09、重写和 strictfp 方法规则十一：strictfp 关键字对重写规则没有任何影响。
47110发布于 2021-02-25
来自专栏CPS推广奖励
25年双11推广大使额外奖励规则
一、佣金膨胀双重梯度奖励 1、活动时间 11月1日-12月15日 2、活动对象全员推广大使 3、活动内容活动期间，推广大使邀请个人新客户冲榜赢最高2.93万额外现金奖励！已主动领取任务：任务领取时间截止12月15日23:59:59 >>点击前往领取任务 ② 客户类型：个人认证用户（以月结信息为准） ③ 订单类型：客户首购 ④ 满足CPS返佣条件订单（详见CPS推广奖励规则
98010编辑于 2025-10-28
来自专栏CPS推广奖励
24年双11推广大使额外奖励规则
一、佣金膨胀双重梯度奖励 11月1日-11月30日，邀请个人新客户冲榜赢8888元额外现金奖励！同时满足以下条件订单可参与本次佣金膨胀双重梯度奖励活动： 1、已主动领取任务：任务领取时间截止11月30日23:59:59 点击立即前往领取>> 2、客户类型：个人认证用户（以月结信息为准） 3、订单类型：客户首购 4、满足CPS返佣条件订单（详见CPS推广奖励规则）示例：某推广大使领取了佣金膨胀双重梯度任务，在11月期间推广个人客户首购订单金额共20万元，获得第一重现金奖励388元，同时为业绩排行榜，需在活动有效期内主动领取任务，若推广达标但在活动结束前未领取任务，则无法统计和获得额外奖励 >>立即前往领取任务 2、奖励发放：额外奖励现金将随11月月结佣金合并打款发放，到账时间和金额根据11月会员星级按月分比例付款 3、活动判断依据以月结信息为准：如后续（11月月结之前）发生订单退款，或推广的个人客户变更为企业认证，需重新计算额外奖励的推广客户数是否达标，会导致推广大使已经获取的奖励失效，需扣除相应的奖励。
76510编辑于 2024-10-30
来自专栏CPS推广奖励
22年11月推广大使额外奖励规则
【重要风控规则说明】推广大使应在腾讯云推广许可范围内，使用正当的手段方式进行推广，不应进行任何欺骗或虚假性质的推广行为，包括但不限于：1、与其他推广大使、或被推广客户相互串通，弄虚作假，恶意刷单，骗取活动奖励同时满足以下条件订单可参与本次邀新企业额外现金奖励活动：1）订单类型为【客户首购】订单2）邀请客户类型为企业认证用户3）单笔订单实付现金金额≥¥584）满足CPS返佣条件订单（详见CPS推广奖励规则）图片示例随11月月结佣金合并打款发放。二、双11邀新个人额外现金奖励11月1日-11月30日，邀请个人新客户最高赢1.6万元现金奖励！同时满足以下条件订单可参与本次邀新个人额外现金奖励活动：1）邀请客户类型为个人认证用户2）满足CPS返佣条件订单（详见CPS推广奖励规则）注：该活动参与订单类型不限，即【客户首购】、【产品首购】、【产品续费 Pro（开团活动规则详见双11主会场）1）开团赢最高999元续费升级券，邀请超50人计入排行，前20名可获额外大奖：第1名：iPhone 14 Pro (全网通5G/512GB/颜色随机) ；第2-5
13K270编辑于 2022-11-10
来自专栏上善若水
001-11 个重要的数据库设计规则
Multidimensional data is a different beast altogether Rule 10:- Centralize name value table design Rule 11 以下列出的 11 点是我对自己在平时项目实践和阅读中学习到的经验总结出来的个人见解。我个人认为它们对我的数据库设计提供了很大的帮助。以下 11 点是我在数据库设计时最优先考虑的规则。　　规则 1：弄清楚将要开发的应用程序是什么性质的（OLTP 还是 OPAP）？　　规则 11：无限分级结构的数据，引用自己的主键作为外键　　我们会经常碰到一些无限父子分级结构的数据（树形结构？）。例如考虑一个多级销售方案的情况，一个销售人员之下可以有多个销售人员。转自：http://kb.cnblogs.com/page/138526/ 英文原文:http://www.c-sharpcorner.com/UploadFile/shivprasadk/11-important-database-designing-rules
61140发布于 2018-09-28
来自专栏机器学习技术分享
8.HanLP实现--命名实体识别
由于上述难点，命名实体识别也是一个统计为主、规则为辅的任务。对于规则性较强的命名实体，比如网址、E-mail、IBSN、商品编号等，完全可以通过正则表达式处理，未匹配上的片段交给统计模型处理。标注领域命名实体识别语料库首先我们需要收集一些文本，作为标注语料库的原料，称为生语料。由于我们的目标是识别文本中的战斗机名称或型号，所以生语料的来源应当是些军事网站的报道。在实际工程中，求由客户提出，则应当由该客户提供生语料。语料的量级越大越好，一般最低不少于数千个句子。生语料准备就绪后，就可以开始标注了。样本标注了数千个之后，生语料就被标注成了熟语料。下面代码自动下载语料库。第 5 章：感知机分类与序列标注第 6 章：条件随机场与序列标注第 7 章：词性标注第 8 章：命名实体识别第 9 章：信息抽取第 10 章：文本聚类第 11 章：文本分类第 12 章：
3.1K21发布于 2020-02-21
来自专栏众森企服
大模型备案指导|最新生成式人工智能服务安全要求
6、违法不良信息 illegal and unhealthy information《网络信息内容生态治理规定》中指出的11类违法信息以及9类不良信息的统称。 1）标注人员方面：①应自行组织对于标注人员的安全培训，培训内容应包括标注任务规则、标注工具使用方法、标注内容质量核验方法、标注数据安全管理要求等；②应自行对标注人员进行考核，给予合格者标注上岗资格，并有定期重新培训考核以及必要时暂停或取消标注上岗资格的机制，考核内容应包括标注规则理解能力、标注工具使用能力、安全风险判定能力、数据安全管理能力等；③应将标注人员职能至少划分为数据标注、数据审核等；在同一标注任务下，同一标注人员不应承担多项职能；④应为标注人员执行每项标注任务预留充足 2）标注规则方面：①标注规则应至少包括标注目标、数据格式、标注方法、质量指标等内容；②应对功能性标注以及安全性标注分别制定标注规则，标注规则应至少覆盖数据标注以及数据审核等环节；③功能性标注规则应能指导标注人员按照特定领域特点生产具备真实性、准确性、客观性、多样性的标注语料；④安全性标注规则应能指导标注人员围绕语料及生成内容的主要安全风险进行标注，对本文件附录A中的全部31种安全风险均应有对应的标注规则。
1.4K10编辑于 2024-08-20
来自专栏机器学习技术分享
HanLP《自然语言处理入门》笔记--1.新手上路
当规则数量增加或者多个专家维护同一个系统时，就容易出现冲突。基于统计的学习方法人们使用统计方法让计算机自动学习语言。所谓“统计”，指的是在语料库上进行的统计。词性标注语料库它指的是切分并为每个词语制定一个词性的语料。命名实体识别语料库这种语料库人工标注了文本内部制作者关心的实体名词以及实体类别。文本分类语料库它指的是人工标注了所属分类的文章构成的语料库。语料库的建设语料库建设指的是构建一份语料库的过程，分为规范制定、人员培训与人工标注这三个阶段。第 5 章：感知机分类与序列标注第 6 章：条件随机场与序列标注第 7 章：词性标注第 8 章：命名实体识别第 9 章：信息抽取第 10 章：文本聚类第 11 章：文本分类第 12 章：
1.7K30发布于 2020-02-18
来自专栏大内老A
ASP.NET MVC基于标注特性的Model验证：一个Model，多种验证规则
11: [RangeValidator(20, 30, RuleName = "Rule2", ErrorMessage = "{0}必须在{1}和{2}之间！")] ; 7: } 8: [HttpPost] 9: public ActionResult Index(Person person) 10: { 11 8: } 9: public RangeValidatorAttribute(double minimum, double maximum) 10: { 11 (controllerDescriptors.TryGetValue(this.GetType(), out controllerDescriptor)) 10: { 11 validator) 9: { 10: ModelValidatorProviders.Providers.Remove(validator); 11
1.1K110发布于 2018-01-15
来自专栏机器学习与自然语言处理
中文分词研究入门
规则4主要关注其中的单字词语。直观来看，有些汉字很少作为词语出现，而另一些汉字则常常作为词语出现，从统计角度来看，在语料库中出现频率高的汉字就很可能是一个单字词语，反之可能性就小。进一步，该文提到了一个确定有效词位标注集的定量标准——平均加权词长。其定义为： ? 是i≥k时的平均加权词长，是语料中词长为k的词次数，K是语料中出现过的最大词长，N是语料库的总词次数。其缺点是学习算法的复杂度往往较高，计算代价较大，好在现在的计算机的计算能力相较于以前有很大提升；同时，该方法依赖训练语料库，领域自适应较差。基于字标注的分词方法是目前的主流分词方法。 [11]深度学习主要有两点优势: 深度学习可以通过优化最终目标，有效学习原子特征和上下文的表示；基于深层网络如 CNN、 RNN、 LSTM等，深度学习可以更有效的刻画长距离句子信息。数学之美（第二版）.人民邮电出版社. 2014 [11] 李正华等，中文信息处理发展报告(2016). 中国中文信息学会. 2016 5.
1.8K71发布于 2018-01-24
NLP词性标注系统开发技术日志
本项目旨在实现一个完整的词性标注系统，支持多种标注方法，包括基于规则的方法、隐马尔可夫模型（HMM）以及未来可扩展的深度学习方法。 4.2 精度改进为了提高标注精度，我们采取了以下措施：语料库增强：通过增加训练语料的多样性和规模来提高模型泛化能力。特征工程：虽然当前版本主要依赖词和词性，但未来可以加入更多特征，如词缀、大小写等。 5.2 测试结果分析通过对比不同方法的输出结果，我们发现：基于规则的方法：准确率高，但依赖于预训练的词典和规则。基于HMM的方法：在训练语料充足的情况下表现良好，但对语料质量敏感。性能分析与对比8.1 准确率对比通过在测试集上的实验，我们得到以下结果：基于规则的方法（jieba）准确率约为90%基于HMM的方法准确率约为75%（受限于训练语料）8.2 速度对比基于规则的方法：处理 11. 总结本项目成功实现了一个完整的词性标注系统，支持多种标注方法，包括基于规则的方法和基于HMM的方法。系统具有良好的架构设计，易于扩展和维护。
33210编辑于 2025-09-27
来自专栏机器学习技术分享
、隐马尔可夫(HMM)感知机条件随机场(CRF)----词性标注
然而工业界就没有那么理想，同时具有分词和词性标注的语料库非常少，需要大量的人力进行标注。以下示例我们选取 PKU 标注的《人民日报》语料库的标注集。 /w 多/ad 吃/v 苹果/手机品牌有益健康/i 从结果来看，词典只是机械的匹配，将“吃苹果”也当成了手机品牌，犯了所有规则系统的通病，看来词典同样解决不了词性标注，词性标注还是应当交给统计方法。标注语料词性的确定需要根据上下文语境，这恰好是统计模型所擅长的。为了实现自定义词性，最佳实践是标注一份语料库，然后训练一个统计模型。第 5 章：感知机分类与序列标注第 6 章：条件随机场与序列标注第 7 章：词性标注第 8 章：命名实体识别第 9 章：信息抽取第 10 章：文本聚类第 11 章：文本分类第 12 章：
1.6K20发布于 2020-02-18
来自专栏利炳根的专栏
学习笔记CB007:分词、命名实体识别、词性标注、句法分析树
基于条件随机场命名实体识别方法属于有监督学习方法，利用已标注大规模语料库训练。命名实体的放射性。命名实体的前后词。特征模板，当前位置前后n个位置字/词/字母/数字/标点作为特征，基于已经标注好语料，词性、词形已知。特征模板选择和具体识别实体类别有关。大量已标注语料库训练，选择合适训练用数学模型，概率图隐马尔科夫模型(HMM)适合词性标注基于观察序列标注情形。隐马尔可夫模型参数初始化。每个词所有可能词性，已有词表标记，词表生成方法简单，已标注语料库，很好统计。生成概率初值设置0。规则词性标注方法。既定搭配关系上下文语境规则，判断实际语境按照规则标注词性。词性标注自动校对。不需要人参与，直接找出错误标注修正，适用一个词词性标注通篇全错，数据挖掘和规则学习方法判断相对准确。大规模训练语料生成词性校对决策表，找通篇全错词性标注自动修正。句法分析树生成。
1.9K110发布于 2018-03-11
来自专栏文智的专栏
【文智背后的奥秘】系列篇：基于 CRF 的人名识别
命名实体根据其特点可以分为两大类，一类是可以根据构词法规则及上下文语境识别出来的，比如人名、地名、机构名；另外一类是可以穷举的垂直类实体，比如影视名，小说名，游戏名等。我们可以把人名识别问题看成是一个序列标注的问题，即根据观察序列预测最优隐含状态序列。比如语料里面有张学友，也有刘德华，但是没有张学华，于是W(S华 == E, C-2-1 == 张学) = 0，但是张，学作为姓名常用字是有的，那么 W(S华 == E, C-2-1 == 11) 现在大部分人都是利用已有标注的熟语料或者人工标注的方法去获取，人名日报是一份比较权威的熟语料，但是我们发现他量小，年份久远，与我们的应用场景网络语料的差距也很大。人工标注语料的成本是很大的，时间长，速度慢，数量小。于是我们想到了一种boosting的语料自动获取方法。
4.2K31发布于 2016-10-09
来自专栏大数据钻研
所有程序员都应该遵守的11条规则
我是一个倾向于生活在规则下的人。现在，这些规则大部分是我本人为自己设立的-但它们依然是规则。我发现为自己创建规则可以让我过得更好，因为这样做可以提前决定一些事情，而不是要在匆忙中做出所有的决定。我的规则告诉我说我要在周三前往健身房，今天是周三，因此我要去健身房，就这么办了！这周，当我正在思考那些对我施加有影响的规则时，我想到了去制定一系列软件开发者都应该遵守的规则，我认为这可能是一个好主意。原则是永恒的，最佳实践是变通的. 11、力求精简所有问题都可以进行分解. 最佳的解决方案往往是最简单的. 但简单并不容易.简化事情需要付出努力。本文目的在于简化复杂的软件开发和人生. 你遵守什么规则？上面是我遵守的规则，那你呢？你个人遵守什么规则？你认为什么是应该天天都记住的？
92480发布于 2018-04-18

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

大模型语料标注需要注意哪些？

语料库构建与主动学习标注工具解析

人民日报标注语料库（PFR）1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总

CPS 11月额外激励规则

11-Location的匹配规则解析

Overriding：嘿嘿，就不告诉你这 11 条规则

25年双11推广大使额外奖励规则

24年双11推广大使额外奖励规则

22年11月推广大使额外奖励规则

001-11 个重要的数据库设计规则

8.HanLP实现--命名实体识别

大模型备案指导|最新生成式人工智能服务安全要求

HanLP《自然语言处理入门》笔记--1.新手上路

ASP.NET MVC基于标注特性的Model验证：一个Model，多种验证规则

中文分词研究入门

NLP词性标注系统开发技术日志

、隐马尔可夫(HMM)感知机条件随机场(CRF)----词性标注

学习笔记CB007:分词、命名实体识别、词性标注、句法分析树

【文智背后的奥秘】系列篇：基于 CRF 的人名识别

所有程序员都应该遵守的11条规则

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐