首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 大模型语料标注需要注意哪些?

    一、语料类型 1.自采语料 2.商业语料 3.开源语料 二、抽检要求 1.人工抽检要求 具体做法:从全部语料中随机抽取不少于 4000 条语料:合格标准:合格率不应低于96%。 以此来保证语料在人工抽检环节的质量水平。 2.技术抽检要求 结合关键词、分类模型等技术进行抽检抽样数量:从全部语料中随机抽取不少于总量 10%的语料。 合格标准:抽样合格率不应低于98%,保障技术抽检的语料质量。 3. 评估技术规范要求 规范内容:评估采用的关键词库、分类模型应符合文件要求。 确保在使用关键词、分类模型等技术进行语料抽检时,所使用的工具和模型是符合既定规范和标准的,从技术层面保障语料安全评估的科学性和准确性。 三、大模型上线备案测试通道需求: 1.大模型产品服务下载通道与测试账号-附加审核策略(10个) 2.大模型产品服务下载通道与测试账号-不附加审核策略(10个) 3.支持生成文本的大模型产品,需要提供API

    30310编辑于 2025-09-04
  • 语料库构建与主动学习标注工具解析

    大多数自然语言处理项目的成功关键取决于用于训练和评估模型的标注数据质量。本期节目中,某机构的Matt和Ines介绍了如何通过一款工具提升数据标注和模型开发工作流程。 该工具是一款基于Python库实现的标注工具,提供Web应用程序和命令行界面。 开发者可自定义输入数据流并设计简易标注界面,其核心能力包括:将复杂标注决策分解为系列二进制选择与某自然语言处理库实现无缝集成在主动学习框架中支持实时模型更新策略通过配方脚本(GitHub开源)实现工作流定制该方案通过动态调整模型训练流程 ,使系统能够根据新增标注数据持续优化模型性能,有效解决了传统标注工作中效率低下与一致性难题。

    15810编辑于 2025-09-19
  • 来自专栏JasonhavenDai

    人民日报标注语料库(PFR)1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总

    PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。 标号也作为一个词进行标注,词性固定为“m(数词)”。 一篇文章里面的段落之间是不空行的,在两篇文章之间,会有一个空行,表示文章的分界线,同时,下一篇文章的“篇章号-段号”都会有所改变。 正文部分按照规范已经切分成词,并且加上标注标注的格式为“词语/词性”,即词语后面加单斜线,再紧跟词性标记。词与词之间用2个单字节空格隔开。每段最后的词,在标记之后也有2个单字节空格,保持格式一致。 如“通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w”中,用“[ ]”合起来的部分是一个完整的机构团体名称,方括号后面紧跟标注nt,nt之后空两个单字节空格,保持了格式的一致 /w 4.生语料库和熟语料语料库中存放的是在语言的实际使用中真实出现过的语言材料,语料库是以电子计算机为载体承载语言知识的基础资源,真实语料需要经过加工

    5.9K80发布于 2018-04-11
  • 来自专栏OpenFPGA

    FPGAHDL 开发的 10规则

    HDL 开发的 10规则 编写良好的、可移植的、可重用的 HDL 代码,使设计能够以所需的频率实现,这绝对是一个挑战。 为此,许多(不是大多数)专业组织都有编码标准。 不过,编码规则可能会成为战场。一些公司的编码规则非常复杂,不仅控制代码结构,还控制格式和命名,而有些公司则稍微宽松一些。 但是,如果你是专业开发 FPGA,或者是作为爱好者,都应该有一些基本的编码规则。当你来到项目的后端并且必须实现时序收敛时,遵守这些基本规则可以节省大量时间和精力。 为此,我开始思考我的 HDL 开发的 10规则是什么?? 状态机——只是单个进程。忘记关于组合部分和顺序部分的学校和课程。所有状态机都应该是单个进程。 这些是我的 HDL 开发的前 10 条(好吧,12 条规则)。我很想知道如果是你,你会考虑添加哪些规则

    61020编辑于 2023-02-14
  • 来自专栏数据库相关

    成为DBA的10规则

    原文地址 https://datatechnologytoday.wordpress.com/2018/10/02/10-rules-for-succeeding-as-a-dba/ 成为一名成功的数据库管理员需要的不仅仅是技术敏锐性和对数据库系统的深入了解 规则3:自动化 - 如果可以自动化DBA流程,为什么要手动执行?您可以做的任何事情,可能都可以通过计算机更好地完成 - 如果它被编程为正确执行。 规则#5:集中精力 - DBA的工作很复杂,涵盖了许多不同的技术和功能领域。DBA很容易被某些任务所淹没 - 特别是那些不经常执行的任务。 规则10:在您的处置中使用所有资源 - 请记住,您不必自己做所有事情。使用您可以使用的资源。很多时候其他人已经遇到并解决了困扰你的问题。使用您的DBMS供应商的技术支持来帮助解决棘手的问题。 遵循此博客文章中提供的规则,以提高您作为DBA的成功率。

    58520发布于 2019-09-17
  • 来自专栏Linux

    使用 firewalld 管理 Linux 防火墙规则(10个案例规则)

    Linux 服务器通常依赖 firewalld 来管理和配置防火墙规则,以确保系统的安全性和网络访问的高效性。 命令: firewall-cmd --permanent --add-service=dhcp 案例 10: VPN 服务 以 OpenVPN 为例,通常需要开放 1194 端口(UDP)。 命令: firewall-cmd --permanent --add-port=1194/udp 规则生效 在配置完所有规则后,别忘了重新加载 firewalld 以使规则生效: 命令: firewall-cmd --reload 总结 在本文中,您学习了如何通过 firewalld 配置 Linux 系统中的防火墙规则,以保护不同类型的服务。 我们深入探讨了如何为 Web 服务器、SSH 远程管理、数据库服务器、DNS 服务器等常见服务器角色配置和管理防火墙规则

    1.2K10编辑于 2025-01-17
  • 来自专栏全栈程序员必看

    10个Web设计的SEO规则建议收藏

    规则0:不要试图作*弊来提升SEO效果。 当你踏入一个房间;里面汇集了手拿各种博士文凭的科学家,你认为你会聪明过他们吗?当然不会。 这个规则是下面所有规则的基础,违反了这一规则,其他规则就无从谈起了。 高频率无意义的重复这些关键字和关键词是绝对禁止的,因为这违反了我们规则一中提到的“不作*弊”原则。 链接文字最好是这个链接的功能性描述,比如“10个CSS小技巧”或“如果通过实例提高你的SEO水平”。这个链接与当前页面的内容越相关,你这个页面就越容易被搜索到。所以,尽量少的链接一些不相关的网站内容。 规则七:图片标签的ALT属性也很重要 其实这一点是规则六和七的综合。如果页面中的图片与内容是相关联的时候,此点尤其重要,它说明你的网站内容很丰富,能够提高页面在搜索引擎中的权重。

    50010编辑于 2021-12-21
  • 来自专栏CPS推广奖励

    22年10月推广大使额外奖励规则

    【重要风控规则说明】推广大使应在腾讯云推广许可范围内,使用正当的手段方式进行推广,不应进行任何欺骗或虚假性质的推广行为,包括但不限于:1、与其他推广大使、或被推广客户相互串通,弄虚作假,恶意刷单,骗取活动奖励 同时满足以下条件订单可参与本次【推广个人客户总订单金额达标奖励】活动:1)订单类型为【客户首购】订单2)邀请客户类型为个人认证用户3)满足CPS返佣条件订单(详见CPS推广奖励规则)图片示例:某推广大使在 同时满足以下条件订单可参与本次【双月目标达成计划奖励】活动:1)客户类型为个人或企业认证客户2)订单类型为【客户首购】订单3)单笔订单金额≥¥704)满足CPS返佣条件订单(详见CPS推广奖励规则)图片注 :9月额外激励随9月月结结算;10月及双月额外激励随10月月结结算。 点击查看9月活动规则2、没来得及抽奖的次数还可以抽吗?获得的抽奖次数需要在10月8日23:59前进行抽奖,否则抽奖次数失效,默认您放弃抽奖机会。点击立即前往抽奖3、在哪里查看我的中奖记录?

    3.9K240编辑于 2022-11-10
  • 来自专栏云计算D1net

    改善云安全性的10规则

    以下将重点介绍云安全的基本概念,并提出改善云安全性的10规则 责任共担模型 云中的安全性遵循一种称为责任共担模型的模式,该模式规定云计算提供商只对云平台安全负责,而客户则对云中的数据安全负责。 以下列出了在其安全策略中设置安全措施的10个最重要领域的列表,但首先需要解释云安全与传统的信息安全的不同之处。 改善云安全的10规则规则1:不要忽视开发人员的凭证 作为每天扫描数以百万计的公共和私人代码存储库的企业,再怎么强调健全的凭证策略的重要性也不为过。 ➤ 规则10:限制人工配置 利用云原生安全工具和控制意味着自动化。需要记住,漏洞源于错误配置,而错误配置就是一种错误。需要完成的人工工作越多,错误潜入的漏洞就越多。 以上提供了10规则来构建更好的云安全性,企业也可以自己制定防护措施。

    62120编辑于 2022-02-28
  • 来自专栏Vue中文社区

    面试的 10 大潜规则,你中招了吗!

    规则2:薪水要求高一点录取概率就大一点 我曾经面试一个刚毕业的大学生,简历上写的精通java,精通mysql,精通spring,然后我就问他你期望的薪水是多少呢? 他的回答是4K,先不说他简历上写的是真是假,但是有一点很明确,如果你在市场上去肉,别人都是卖30元一斤,而路边有个摆摊的只买10元一斤,那么你们会去买么? 可以从两个方面考虑一是工作年限,一般来说 初入行:8K到12K 1年到2年:10K到15K 3年到5年:13K到22K 5年以上:18K以上 当然,不同的地区有点差别,但差别应该不大 另一个方面是参考大公司的工资标准 潜规则9:选择大于努力的前提是先足够的努力才会有选择 很多人都在倡导选择大于努力,可更重要的往往更容易被忽略,那就是:只有足够的努力才会有选择。 潜规则10:人生苦短,绝不将就,必须去自己真心想去的公司 我遇到过很多人,在跟他们聊天时,他们都有类似的心理:一点都不想在这里上班,但是工作又不好找,只好暂时做着,这一做就是好几年;每天带着一种不愿意的心情上班

    82710发布于 2021-02-26
  • 生成式人工智能(大语言模型)安全评估要点

    #生成式人工智能##大模型##安全评估##aigc##备案##大模型备案#一、语料安全评估(一)评估内容1.文本训练语料规模2.各类型语料规模3.训练语料来源4.语料标注数量5.标注人员情况6.标注规则 7.标注内容准确性核验8.语料合法性二、模型安全评估1.语料内容评估2.生成内容评估3.涉知识产权、商业秘密的评估4.涉民族、信仰、性别等评估5.涉透明性、准确性、可靠性等的评估三、安全措施评估1.模型适用人群 服务过程中收集保存个人信息3.收集个人信息征得个人同意情况4.受理处理使用者查阅、复制、更正、补充、删除个人信息请求的情况5.图片、视频标识情况6.接受公众或使用者投诉举报情况7.服务协议情况8.非法内容拦截措施9.拒答率10

    60910编辑于 2025-08-19
  • 来自专栏大内老A

    ASP.NET MVC基于标注特性的Model验证:一个Model,多种验证规则

    DisplayName("性别")] 7: public string Gender { get; set; } 8:  9: [DisplayName("年龄")] 10 : [RangeValidator(10, 20, RuleName = "Rule1", ErrorMessage = "{0}必须在{1}和{2}之间!")] 三种验证规则(Rule1、Rule2和Rule3)分别要求年龄分别在10到20、20到30和30到40岁之间。 new Person()); 7: } 8: [HttpPost] 9: public ActionResult Index(Person person) 10 9: if (controllerDescriptors.TryGetValue(this.GetType(), out controllerDescriptor)) 10

    1.1K110发布于 2018-01-15
  • 来自专栏众森企服

    大模型备案指导|最新生成式人工智能服务安全要求

    1)标注人员方面:①应自行组织对于标注人员的安全培训,培训内容应包括标注任务规则标注工具使用方法、标注内容质量核验方法、标注数据安全管理要求等;②应自行对标注人员进行考核,给予合格者标注上岗资格,并有定期重新培训考核以及必要时暂停或取消标注上岗资格的机制 ,考核内容应包括标注规则理解能力、标注工具使用能力、安全风险判定能力、数据安全管理能力等;③应将标注人员职能至少划分为数据标注、数据审核等;在同一标注任务下,同一标注人员不应承担多项职能;④应为标注人员执行每项标注任务预留充足 2)标注规则方面:①标注规则应至少包括标注目标、数据格式、标注方法、质量指标等内容;②应对功能性标注以及安全性标注分别制定标注规则标注规则应至少覆盖数据标注以及数据审核等环节;③功能性标注规则应能指导标注人员按照特定领域特点生产具备真实性 、准确性、客观性、多样性的标注语料;④安全性标注规则应能指导标注人员围绕语料及生成内容的主要安全风险进行标注,对本文件附录A中的全部31种安全风险均应有对应的标注规则。 2)结合关键词、分类模型等技术抽检,从全部语料中随机抽取不少于总量10%的语料,抽样合格率不应低于98%。3)评估采用的关键词库、分类模型应符合本文件第8章要求。

    1.4K10编辑于 2024-08-20
  • 来自专栏dongdong的数据标注

    2022年10 款最佳计算机视觉开源数据标注工具

    一款好用的数据标注工具对于创建高质量的AI训练数据集至关重要,您可以通过高效的标注工具提高数据标注速度,让工作流变得更为有序。 随着计算机视觉技术的发展,我们可以在开源社区看到越来越多的图像标注工具,任何人都可以免费使用并从强大的功能中获益,我们在下文中列举了10款我们认为优秀的开源标注工具!1. 然而,虽然LabelIMG非常易于上手,但由于它没有任何协同标注功能,而且仅支持包围框标注,所以不适合用于多人协同标注,也不适合任何其他标注类型。 此外,由于它专注于多人协作标注,允许通过将标注员分成多个团队来对数据集进行大规模标注。6. LABELMELabelMe 被认为是最著名的数据标注工具之一。 COCO Annotator还支持用半训练模型预标注图像,并拥有 DEXTR、MaskRCNN 和 Magic Wand 等高级选项。最后,它还提供了一个用户身份验证系统来保证安全性。10.

    8.9K30编辑于 2022-06-22
  • 来自专栏机器学习技术分享

    8.HanLP实现--命名实体识别

    由于上述难点,命名实体识别也是一个统计为主、规则为辅的任务。 对于规则性较强的命名实体,比如网址、E-mail、IBSN、商品编号等,完全可以通过正则表达式处理,未匹配上的片段交给统计模型处理。 标注领域命名实体识别语料库 首先我们需要收集一些文本, 作为标注语料库的原料,称为生语料。由于我们的目标是识别文本中的战斗机名称或型号,所以生语料的来源应当是些军事网站的报道。 在实际工程中,求由客户提出,则应当由该客户提供生语料语料的量级越大越好,一般最低不少于数千个句子。 生语料准备就绪后,就可以开始标注了。 样本标注了数千个之后,生语料就被标注成了熟语料。下面代码自动下载语料库。 第 5 章:感知机分类与序列标注 第 6 章:条件随机场与序列标注 第 7 章:词性标注 第 8 章:命名实体识别 第 9 章:信息抽取 第 10 章:文本聚类 第 11 章:文本分类 第 12 章:

    3.1K21发布于 2020-02-21
  • 来自专栏磐创AI技术团队的专栏

    多伦多大学&NVIDIA最新成果:图像标注速度提升10倍!

    转载自:图灵TOPIA,未经允许不得二次转载 图像标注速度提升10倍! 这是多伦多大学与英伟达联合公布的一项最新研究:Curve-GCN的应用结果。 Curve-GCN是一种高效交互式图像标注方法,其性能优于Polygon-RNN++。 在自动模式下运行时间为29.3ms,在交互模式下运行时间为2.6ms,比Polygon-RNN ++分别快10倍和100倍。 (上)cityscaps训练模型的开箱即用输出,(下)使用来自新领域的10%的数据进行微调。 ? ? 它支持多边形或样条对对象进行标注,从而提高了基于线和曲线对象的标注效率。

    1.1K30发布于 2019-05-07
  • 来自专栏大模型备案

    专业角度深度讲解:大模型备案 全流程攻略!从准备到公示!

    大模型备案全流程解析①首先要预约属地网信办预约进行线下领表,要带上自己的产品,网信办会当场对产品进行测试,测试通过后会下发大模型上线备案表②认真撰写材料,材料分别有五部分,分别有:安全自评估报告,模型服务协议,语料标注规则 多对一的线下会议)⑤通过专家评审会议后、网信办的测试产品群无反馈意见、纸质版材料无需修改,即等待网信办通知备案通过四、备案材料说明刚刚流程上有提到大模型的上线备案表其中的五个附件:安全自评估报告、模型服务协议、语料标注规则 研制信息要写算力、语料来源、算法架构。(二)《安全评估报告》语料安全:每批语料附第三方检测报告,证明违法信息占比<5%;个人信息必须去标识化。 (三)《语料标注规则标注团队资质:标注员要有汉语言文学/计算机专业背景,附培训记录。流程细则:预处理去重去噪,标注采用“单人标注+双人交叉核验”,质量抽检比例≥10%,错误率≤3%。 解决办法:商业语料必须附完整授权合同,开源语料存好协议截图;用专业工具检测并删除敏感信息,每批语料附检测报告。

    1.1K10编辑于 2025-12-09
  • 来自专栏机器学习技术分享

    HanLP《自然语言处理入门》笔记--1.新手上路

    规则数量增加或者多个专家维护同一个系统时,就容易出现冲突。 基于统计的学习方法 人们使用统计方法让计算机自动学习语言。所谓“统计”,指的是在语料库上进行的统计。 词性标注语料库 它指的是切分并为每个词语制定一个词性的语料。 命名实体识别语料库 这种语料库人工标注了文本内部制作者关心的实体名词以及实体类别。 文本分类语料库 它指的是人工标注了所属分类的文章构成的语料库。 语料库的建设 语料库建设指的是构建一份语料库的过程,分为规范制定、人员培训与人工标注这三个阶段。 第 5 章:感知机分类与序列标注 第 6 章:条件随机场与序列标注 第 7 章:词性标注 第 8 章:命名实体识别 第 9 章:信息抽取 第 10 章:文本聚类 第 11 章:文本分类 第 12 章:

    1.7K30发布于 2020-02-18
  • 来自专栏利炳根的专栏

    学习笔记CB007:分词、命名实体识别、词性标注、句法分析树

    基于条件随机场命名实体识别方法属于有监督学习方法,利用已标注大规模语料库训练。 命名实体的放射性。命名实体的前后词。 特征模板,当前位置前后n个位置字/词/字母/数字/标点作为特征,基于已经标注语料,词性、词形已知。特征模板选择和具体识别实体类别有关。 大量已标注语料库训练,选择合适训练用数学模型,概率图隐马尔科夫模型(HMM)适合词性标注基于观察序列标注情形。 隐马尔可夫模型参数初始化。 每个词所有可能词性,已有词表标记,词表生成方法简单,已标注语料库,很好统计。生成概率初值设置0。 规则词性标注方法。既定搭配关系上下文语境规则,判断实际语境按照规则标注词性。 词性标注自动校对。不需要人参与,直接找出错误标注修正,适用一个词词性标注通篇全错,数据挖掘和规则学习方法判断相对准确。大规模训练语料生成词性校对决策表,找通篇全错词性标注自动修正。 句法分析树生成。

    1.9K110发布于 2018-03-11
  • 来自专栏机器学习/数据可视化

    NLP札记1

    语义角色标注标注句子中的谓语和其他成分的关系 语义依存分析:分子句子中的词语之间的语义关系 高级任务 自动问答 自动摘要 机器翻译 NLP流派 一、基于规则的专家系统 规则指的是由专家制定的确定性流程 语料库指的是人工标注的结构化文本。 三、NLP历史 1950年的图灵测试 1980年第一个自动问答系统 1990年统计学习方法的兴起 2010年神经网络的复兴 ? 特征越多,参数就越多,模型就复杂 语料库:NLP领域中的数据集 中文语料库:由人工正确切分后的句子集合 2. 词性标注语料库:切分+为词语指定一个词性的语料库 3. 命令实体识别语料库:文本内部标注了实体名词和实体类别 4. 句法分析语料库::CTB(Chinese TreeBank):每个句子都经过了分词、词性标注和句法标注 5. 文本分类语料库:人工标注了所属分类的文章构成的语料库,比如:情感分类语料语料库建设 规范制定 人员培训 人工标注 开源NLP工具 ?

    75810发布于 2021-03-02
领券