搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

大模型语料标注需要注意哪些？
一、语料类型 1.自采语料 2.商业语料 3.开源语料二、抽检要求 1.人工抽检要求具体做法:从全部语料中随机抽取不少于 4000 条语料:合格标准:合格率不应低于96%。以此来保证语料在人工抽检环节的质量水平。 2.技术抽检要求结合关键词、分类模型等技术进行抽检抽样数量:从全部语料中随机抽取不少于总量 10%的语料。合格标准:抽样合格率不应低于98%，保障技术抽检的语料质量。 3. 评估技术规范要求规范内容:评估采用的关键词库、分类模型应符合文件要求。确保在使用关键词、分类模型等技术进行语料抽检时，所使用的工具和模型是符合既定规范和标准的，从技术层面保障语料安全评估的科学性和准确性。
30310编辑于 2025-09-04
语料库构建与主动学习标注工具解析
大多数自然语言处理项目的成功关键取决于用于训练和评估模型的标注数据质量。本期节目中，某机构的Matt和Ines介绍了如何通过一款工具提升数据标注和模型开发工作流程。该工具是一款基于Python库实现的标注工具，提供Web应用程序和命令行界面。开发者可自定义输入数据流并设计简易标注界面，其核心能力包括：将复杂标注决策分解为系列二进制选择与某自然语言处理库实现无缝集成在主动学习框架中支持实时模型更新策略通过配方脚本（GitHub开源）实现工作流定制该方案通过动态调整模型训练流程，使系统能够根据新增标注数据持续优化模型性能，有效解决了传统标注工作中效率低下与一致性难题。
15810编辑于 2025-09-19
来自专栏JasonhavenDai
人民日报标注语料库（PFR）1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总
PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的，严格按照人民日报的日期、版序、文章顺序编排的。标号也作为一个词进行标注，词性固定为“m（数词）”。一篇文章里面的段落之间是不空行的，在两篇文章之间，会有一个空行，表示文章的分界线，同时，下一篇文章的“篇章号-段号”都会有所改变。正文部分按照规范已经切分成词，并且加上标注，标注的格式为“词语/词性”，即词语后面加单斜线，再紧跟词性标记。词与词之间用2个单字节空格隔开。每段最后的词，在标记之后也有2个单字节空格，保持格式一致。如“通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w”中，用“[ ]”合起来的部分是一个完整的机构团体名称，方括号后面紧跟标注nt，nt之后空两个单字节空格，保持了格式的一致 /w 4.生语料库和熟语料库语料库中存放的是在语言的实际使用中真实出现过的语言材料，语料库是以电子计算机为载体承载语言知识的基础资源，真实语料需要经过加工
5.9K80发布于 2018-04-11
来自专栏张高兴的博客
YOLOv8 入门指南：（2）图像标注
安装图像标注工具 LabelImg 打开 LabelImg 网站，使用 git 命令或下载 zip 的形式，将代码保存到本地； git clone git@github.com:HumanSignal/ pyrcc5 -o libs/resources.py resources.qrc # 只需执行一次 python labelImg.py 图像标注标注的第一步要在 LabelImg 中打开图像，可以打开单个图像，也可以打开图像所在的文件夹；点击创建区块按钮开始标注；标注框不要大于或小于物体，标注完成后选择或输入物体的标签，点击 OK 按钮完成标注；直到标注完图像中所有的物体，点击保存按钮存储标签
1.6K10编辑于 2025-05-21
来自专栏分布式｜微服务｜性能优化｜并发编程｜源码分析
8.索引数据路由规则
索引路由规则在 Elasticsearch 中，索引路由规则用于控制文档如何被分配到不同的分片(shard)上。索引路由规则是通过指定文档的某个字段值来决定文档应该被路由到哪个分片。路由计算一般有三种规计算规则默认规则 shared_num = hash(_routing) % num_primary_shards 此时_routing = _id 指定routing shared_num
35320编辑于 2023-10-10
来自专栏Python爬虫与算法进阶
PEP8规则及Pycharm应用
PEP8 PEP是 Python Enhancement Proposal 的缩写，翻译过来就是 Python增强建议书 PEP8 是什么呢，简单说就是一种编码规范，是为了让代码“更好看”，更容易被阅读具体有这些规范，参考 PEP 8 -- Style Guide for Python Code For example Yes: import os import sys No: import 之前招聘爬虫工程师，会PEP8也会加分，所以学习下PEP8还是有帮助的。 Pycharm 设置 PyCharm 配置 PEP 8 代码提示直接在右下角调整 Highlighting Level 为 Inspections 就能自动 PEP 8提示 (一般默认就是这个) ? 鼠标移到上方会提示： PEP 8: expected 2 blank lines, found 1，我们再增加一个空格就好了，你的代码中有任何不符合 PEP8 规范的地方都会有“~~~~~”提示 ?
1.7K51发布于 2018-04-04
yolov8自动标注工具自动打标签工具
软件截图如下：这个工具可以自动将图片识别为指定类别并保存为VOC格式xml文件，软件只支持官方80类别，您可以选择其中一部分或者一部分进行自动标注，标注的效果依据图片而定，通过自动标注您可以减少很多标注工作量，同时相比较于手动标注可以节约至少80%时间，自动标注完成后，我们只需要用labelImg打开重新审核，查缺补漏即可完成标注。具体使用教程： yolov8自动标注工具使用教程可更换自己模型标注_哔哩哔哩_bilibiliyolov8自动标注自己图片支持更换自己模型进行自动标注, 视频播放量 2、弹幕量 0、点赞数 0、投硬币枚数，【完整版YOLOv8教程】从未见过能把YOLOv8讲的如此通俗易懂！，4yolov8快速训练助手一键训练自定义VOC格式数据集，python使用pyqt5搭建yolov8 竹签计数一次性筷子计数系统，自动标注 https://www.bilibili.com/video
1.4K10编辑于 2025-07-17
来自专栏张俊红
8 条数据可视化配色规则
— 规则4 — 对数据项进行归类虽然使用不同的颜色可以帮助区分不同的数据点，但一张图表最多只能包含6-8个不同的颜色类别，以便每个类别都容易区分。前15个国家/地区服务的卫星如果可视化中需要6-8种以上的不同颜色(色调)，可以合并某些类别或浏览其他图表类型。 — 规则6 — 不使用顺序配色方案的场景为了使顺序调色板的颜色细微差别很明显，这些颜色必须相邻放置，如下图所示。 — 规则7 — 选择合适的背景物体的感知颜色不仅取决于物体本身的颜色，还取决于其背景。 — 规则8 — 不是每个人都能看到所有的颜色大约10%的世界人口是色盲，为了让每个人都能获得彩色信息图表，避免使用红色和绿色的组合。
1.6K30编辑于 2023-03-21
来自专栏WindCoder
高效软件生产的8条规则
规则3：使用持久存储作为人类记忆的延伸人类的记忆虽然惊人，但具有极限。你靠不可预测的准确性与持久性记忆事情，当你忘记的时候，将没有办法随意回忆它们。规则4：在正式时间估计上停止浪费时间没有两个项目是一样的。下一次你做类似的项目时，你会有不同的客户，不同的目标，不同的团队; 甚至可能是不同的技术。假设这是正确的，应该明白，该项目在平均8个月的时间内将有50％的机会。了解统计预测有如此令人难以置信的效果。一个聪明的经理只会对这样一个项目进行十二个月的估计，然后尽早完成这个项目。规则6：使用架构评估作为改进系统设计的一种方式 T行业的运作理念是“设计过度”和“设计不足”。当它在会谈中出现时，每个人都说过度设计是不好的。规则8：重视团队合作关于团队合作的信息，与上述任何一个主题有关。每个人都知道团队合作更好，但如何建立和维护团队依然是一个谜。
63120发布于 2018-09-20
来自专栏全栈程序员必看
UTF-8编码规则_库德巴码编码规则字符编码笔记：ASCII，Unicode和UTF-8
UTF-8编码规则（转） UTF-8是Unicode的一种实现方式，也就是它的字节结构有特殊要求，所以我们说一个汉字的范围是0X4E00到0x9FA5，是指unicode值，至于放在utf- UTF-8是一种变长字节编码方式。 UTF-8的编码规则很简单，只有二条： 1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。下表总结了编码规则，字母x表示可用编码的位。 4）UTF-8：编码是六个字节“EF BB BF E4 B8 A5”，前三个字节“EF BB BF”表示这是UTF-8编码，后三个“E4B8A5”就是“严”的具体编码，它的存储顺序与编码顺序是一致的。
4K40编辑于 2022-09-20
来自专栏众森企服
大模型备案指导|最新生成式人工智能服务安全要求
1）标注人员方面：①应自行组织对于标注人员的安全培训，培训内容应包括标注任务规则、标注工具使用方法、标注内容质量核验方法、标注数据安全管理要求等；②应自行对标注人员进行考核，给予合格者标注上岗资格，并有定期重新培训考核以及必要时暂停或取消标注上岗资格的机制，考核内容应包括标注规则理解能力、标注工具使用能力、安全风险判定能力、数据安全管理能力等；③应将标注人员职能至少划分为数据标注、数据审核等；在同一标注任务下，同一标注人员不应承担多项职能；④应为标注人员执行每项标注任务预留充足 2）标注规则方面：①标注规则应至少包括标注目标、数据格式、标注方法、质量指标等内容；②应对功能性标注以及安全性标注分别制定标注规则，标注规则应至少覆盖数据标注以及数据审核等环节；③功能性标注规则应能指导标注人员按照特定领域特点生产具备真实性、准确性、客观性、多样性的标注语料；④安全性标注规则应能指导标注人员围绕语料及生成内容的主要安全风险进行标注，对本文件附录A中的全部31种安全风险均应有对应的标注规则。 2）结合关键词、分类模型等技术抽检，从全部语料中随机抽取不少于总量10%的语料，抽样合格率不应低于98%。3）评估采用的关键词库、分类模型应符合本文件第8章要求。
1.4K10编辑于 2024-08-20
来自专栏SEO
「知识」8个改变游戏规则的SEO趋势
新的一年，在SEO中，将有哪些新的规则趋势需要我们去了解？ — — 及时当勉励，岁月不待人。 8个改变游戏规则的SEO趋势时本文总计约2000个字左右，需要花 8 分钟以上仔细阅读。虽然有这么多因素，但我们真正了解的却没有多少，这使得它非常具有挑战性，这也是游戏规则的不断变化的本质。 8、日益个性化的SERP 个性化的搜索结果不仅仅是基于传统的排名因素，还有关于用户的信息（例如他们的位置，搜索历史或兴趣）。 Google，Bing和Yahoo都以多种方式个性化他们的搜索结果。
85470发布于 2018-05-17
来自专栏CPS推广奖励
22年8月推广大使额外奖励规则
【重要风控规则说明】推广大使应在腾讯云推广许可范围内，使用正当的手段方式进行推广，不应进行任何欺骗或虚假性质的推广行为，包括但不限于：1、与其他推广大使、或被推广客户相互串通，弄虚作假，恶意刷单，骗取活动奖励图片二、8月拉新额外梯度现金奖励持续进行1、活动时间：2022年8月1日-2022年8月31日2、活动对象：腾讯云官网个人实名认证用户3、活动内容8月1日至8月31日期间，邀新可额外获最高3.5万元现金奖励三、返佣规则8月更新1、新增CVM返佣产品8月1日-8月31日期间，推广推广大使专属活动页【买赠专区】CVM，及【主推专区】GPU服务器均可得返佣；即【买赠专区】与【主推专区】CVM不受5折以上返佣限制点击查看返佣产品明细图片----附 7月重要规则调整回顾1、积分规则调整5星推广者积分调整为过去3个月总积分≥301分（原1001分），则可维持/升级5星会员，星级在7月月结（8月10日）生效，其它星级的积分保持不变图片2、返佣产品规则调整7月1日0点起，轻量应用服务器不受折扣率限制，即推广轻量应用服务器任一折扣率产品均可得返佣。
14.9K120编辑于 2022-11-10
来自专栏大内老A
ASP.NET MVC基于标注特性的Model验证：一个Model，多种验证规则
{ get; set; } 5: 6: [DisplayName("性别")] 7: public string Gender { get; set; } 8: ActionResult Index() 5: { 6: return View("person", new Person()); 7: } 8: 5: public string RuleName { get; set; } 6: public override object TypeId 7: { 8: public ValidationRuleAttribute(string ruleName) 6: { 7: this.RuleName = ruleName; 8: public ControllerDescriptor ControllerDescriptor 5: { 6: get 7: { 8:
1.1K110发布于 2018-01-15
生成式人工智能（大语言模型）安全评估要点
#生成式人工智能##大模型##安全评估##aigc##备案##大模型备案#一、语料安全评估（一）评估内容1.文本训练语料规模2.各类型语料规模3.训练语料来源4.语料标注数量5.标注人员情况6.标注规则 7.标注内容准确性核验8.语料合法性二、模型安全评估1.语料内容评估2.生成内容评估3.涉知识产权、商业秘密的评估4.涉民族、信仰、性别等评估5.涉透明性、准确性、可靠性等的评估三、安全措施评估1.模型适用人群用途2.服务过程中收集保存个人信息3.收集个人信息征得个人同意情况4.受理处理使用者查阅、复制、更正、补充、删除个人信息请求的情况5.图片、视频标识情况6.接受公众或使用者投诉举报情况7.服务协议情况8.
60910编辑于 2025-08-19
来自专栏机器学习技术分享
8.HanLP实现--命名实体识别
笔记转载于GitHub项目：https://github.com/NLP-LOVE/Introduction-NLP 8. 命名实体识别 8.1 概述命名实体文本中有一些描述实体的词汇。由于上述难点，命名实体识别也是一个统计为主、规则为辅的任务。对于规则性较强的命名实体，比如网址、E-mail、IBSN、商品编号等，完全可以通过正则表达式处理，未匹配上的片段交给统计模型处理。标注领域命名实体识别语料库首先我们需要收集一些文本，作为标注语料库的原料，称为生语料。由于我们的目标是识别文本中的战斗机名称或型号，所以生语料的来源应当是些军事网站的报道。样本标注了数千个之后，生语料就被标注成了熟语料。下面代码自动下载语料库。第 5 章：感知机分类与序列标注第 6 章：条件随机场与序列标注第 7 章：词性标注第 8 章：命名实体识别第 9 章：信息抽取第 10 章：文本聚类第 11 章：文本分类第 12 章：
3.1K21发布于 2020-02-21
NLP词性标注系统开发技术日志
本项目旨在实现一个完整的词性标注系统，支持多种标注方法，包括基于规则的方法、隐马尔可夫模型（HMM）以及未来可扩展的深度学习方法。 4.2 精度改进为了提高标注精度，我们采取了以下措施：语料库增强：通过增加训练语料的多样性和规模来提高模型泛化能力。特征工程：虽然当前版本主要依赖词和词性，但未来可以加入更多特征，如词缀、大小写等。 5.2 测试结果分析通过对比不同方法的输出结果，我们发现：基于规则的方法：准确率高，但依赖于预训练的词典和规则。基于HMM的方法：在训练语料充足的情况下表现良好，但对语料质量敏感。性能分析与对比8.1 准确率对比通过在测试集上的实验，我们得到以下结果：基于规则的方法（jieba）准确率约为90%基于HMM的方法准确率约为75%（受限于训练语料）8.2 速度对比基于规则的方法：处理总结本项目成功实现了一个完整的词性标注系统，支持多种标注方法，包括基于规则的方法和基于HMM的方法。系统具有良好的架构设计，易于扩展和维护。
33510编辑于 2025-09-27
来自专栏探索RPA
高质量实施RPA需要遵循的8大规则
这就要在具体的RPA机器人开发过程中遵循8大规则。规则1：增强个人能力 RPA开发者需要多学、多用、多练，增强个人开发技能的同时增长开发经验，成为能独当一面的开发专家。规则2：制定编码规范编码规范体现出一个RPA开发者的基本素质，良好的编码规范可以提高团队编码的效率,避免很多不必要的问题。 1、命名规范。规则7：重视测试环节测试是RPA项目上线之前最关键的一个环节。完整、系统的测试有利于验证开发结果，覆盖业务场景和业务规则，规避潜在的功能性的或者业务性的风险，保障项目的正常上线。规则8：形成部署规范完善的部署规范可以避免在进行环境转换时出现低级错误。RPA项目基本都存在3种环境：开发环境，测试环境和正式环境。总之，只有通过遵守开发规则和不断地完善这些规则，才能提高RPA开发效率，缩短开发周期，减少出错机率，促进团队合作和降低维护成本，进而在最短的时间内，花最少的钱，高质量地完成RPA项目。
74530发布于 2019-10-12
来自专栏茹莱神兽博客
网站URL规范化设计的8个命名规则
基于以上原则，SEO在URL规范化设计时，应当遵守8个命名规则。 8、目录还是文件形式目录形式的URL在更换程序时，URL不需要重写；文件形式的URL更换程序之后，文件扩展名可能会有所变化，URL重写可以便面。
2.3K00编辑于 2024-10-09
来自专栏猫头虎博客专区
猫头虎解析：MySQL 8 密码规则的特殊要求
‍ 猫头虎解析：MySQL 8 密码规则的特殊要求摘要：在本篇博客中，猫头虎博主将深入探索MySQL 8中密码规则的特殊要求。引言： MySQL 8引入了一系列密码安全性增强措施，包括更新的密码认证机制和密码策略。了解这些密码规则对于维护数据库的安全性至关重要。正文： MySQL 8密码规则概览 MySQL 8加强了密码安全性，引入了密码策略来确保用户密码的复杂性和安全性。密码验证插件 MySQL 8使用caching_sha2_password作为默认的密码验证插件，提供了更高的安全性。密码复杂性要求长度：密码通常需要至少8个字符长。性能考量：更强的密码规则可能会轻微影响认证性能。安全最佳实践：定期更新密码，避免使用过于简单的密码。总结了解并应用MySQL 8的密码规则是确保数据库安全的重要步骤。
1.4K10编辑于 2024-04-07

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

大模型语料标注需要注意哪些？

语料库构建与主动学习标注工具解析

人民日报标注语料库（PFR）1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总

YOLOv8 入门指南：（2）图像标注

8.索引数据路由规则

PEP8规则及Pycharm应用

yolov8自动标注工具自动打标签工具

8 条数据可视化配色规则

高效软件生产的8条规则

UTF-8编码规则_库德巴码编码规则字符编码笔记：ASCII，Unicode和UTF-8

大模型备案指导|最新生成式人工智能服务安全要求

「知识」8个改变游戏规则的SEO趋势

22年8月推广大使额外奖励规则

ASP.NET MVC基于标注特性的Model验证：一个Model，多种验证规则

生成式人工智能（大语言模型）安全评估要点

8.HanLP实现--命名实体识别

NLP词性标注系统开发技术日志

高质量实施RPA需要遵循的8大规则

网站URL规范化设计的8个命名规则

猫头虎解析：MySQL 8 密码规则的特殊要求

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐