首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏JasonhavenDai

    人民日报标注语料库(PFR)1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总

    PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。 q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度 比如“19980101-01-001-001”表示这一自然段是1998年1月1日的第01版的第001篇文章的第001自然段,用短横线隔开的4部分按照顺序是“年月日-版号-篇章号-段号”。 /w 4.生语料库和熟语料库 语料库中存放的是在语言的实际使用中真实出现过的语言材料,语料库是以电子计算机为载体承载语言知识的基础资源,真实语料需要经过加工 、分析和处理之后才能成为可用的语料库语料库是指收集之后未加工的预料库 相对而言,熟语料库就是经过加工的 5.其他语料库汇总 http://blog.csdn.net/qq

    5.9K80发布于 2018-04-11
  • 来自专栏机器学习与python集中营

    语料库】中文公开聊天语料库

    github.com/fateleak/dgk_lost_conv tieba(贴吧论坛回帖语料) https://pan.baidu.com/s/1mUknfwy1nhSM7XzH8xi7gQ 密码:i4si

    9.8K50发布于 2019-05-29
  • 来自专栏明天依旧可好的专栏

    原始语料库

    第一步: 判断数据中是否存在重复数据 创建python文件– 代码框架 ''' author: kzb time: 2018-12-10 ''' import pandas as pd import os,csv dataPath = os.path.join("音译原始数据.csv") def import_data(dataPath): ''' 导入文件中的数据 return:dataFrame ''' pass def find_En_Cn_excess(dataFrame

    99030发布于 2019-01-22
  • 来自专栏大模型应用

    大模型应用:语料库治理实战:基于 text2vec+BERT 的由浅入深解析.41

    直接用这类脏数据训练模型,只会让模型学错知识、生成混乱内容;而经过专业治理的小语料库,能让本地化模型的效果提升 50% 以上。 语料库治理的定义语料库治理(Corpus Governance)是指对原始文本数据进行采集、清洗、去重、质量评估、存储管理的全流程,核心目标是:降低噪声率(冗余、错误、无意义内容占比);提升文本质量(语法正确性 对于小语料库治理的核心原则是精而不是多,哪怕只有 1G 高质量语料,也远胜于 10G 脏数据。2. 语料库治理的问题2.1 完全重复:模型的记忆超载问题体现:同一段文本像复读机一样反复出现。 治理要点:建立精细化的领域分类系统,为不同应用场景构建领域纯净或领域平衡的语料集。3. 语料库治理的取舍 语料库治理并非简单的“剔除所有问题”,而是一门融合的艺术。 本地存储:结构化存储治理后的高质量语料五、示例:语料库治理实践1. 原始语料生成模拟包含噪声的原始语料(重复、短文本、格式混乱、错别字),覆盖 3 个核心领域。

    34443编辑于 2026-03-10
  • 来自专栏机器学习AI算法工程

    文本分类中语料库的获取——搜狗语料库

    这次主要总结搜过语料库的获取,因为老师要求20万数据,而我自己只爬了2万多,所以用到了搜狗的语料库.

    3.2K80发布于 2018-03-14
  • 来自专栏并发笔记

    手写dubbo框架4-服务治理(服务发现-zookeeper)

    本节涉及博客中代码的两个module,farpc-registry(服务治理)、farpc-cluster(集群管理)。 RuntimeException(e.getMessage(), e); } }} 以上则为服务发现的所有代码,意在模拟dubbo,而不是照抄dubbo,希望可以帮助大家对dubbo服务治理有一定的了解

    72441发布于 2019-07-15
  • 来自专栏希里安

    微服务治理?容器治理

    可识别英语、俄语、中文等语言,感兴趣的可以看下--[Translumo](https://github.com/Danily07/Translumo) 微服务和容器治理 微服务治理和容器治理都是与分布式应用程序和容器化部署相关的领域 微服务治理(Microservices Governance): 微服务治理是管理和维护微服务架构中的各个微服务组件的一系列策略、实践和工具。 自动化: 自动化是微服务治理的核心,包括自动部署、自动伸缩和自动化测试等。 容器治理(Container Orchestration): 容器治理是管理容器化应用程序的一系列策略和工具。 容器治理实例 容器治理是确保容器化应用程序在分布式环境中可靠运行的一组实践和工具。 容器治理: 安全性容器治理可以管理访问控制、证书管理和数据加密,以确保数据的保密性和完整性。

    1.1K40编辑于 2023-10-30
  • 来自专栏实时流式计算

    【译文】数据治理与BI治理

    几十年来,数据治理一直是企业关注的焦点,并随着企业数据量的急剧增长,数据治理的重要性日益凸显。然而,大规模的有效BI治理一直是一个难以实现的目标,因为它需要比传统数据治理更广泛的关注点。 毕竟,如果给用户的交付物不一致,或者缺乏适当的上下文以确保业务用户正确地理解数据,那么所谓高质量、精心治理的数据又有什么价值呢? 有效的BI治理要求组织为数据和分析的治理建立流程。 BI门户的关键治理角色体现在以下两个场景:独立的BI治理平台,或与数据目录协同工作。 什么是数据治理? 数据治理是一组确保有效管理和利用数据的过程和技术的集合。 组织中的分析师和数据管理员使用数据治理工具来执行公司治理政策,来促进数据的正确使用。 应用这些工具进行数据治理需要大量的持续投资,因此许多组织希望从这些投资中获得可观的投资回报。 什么是BI治理

    1.5K40编辑于 2023-03-24
  • 来自专栏从救火到防火:大模型赋能云原生安全

    4 期:基于资产画像的治理闭环:从基础镜像到 CICD 的源头治理方法论

    引言大多数企业仍然停留在“补漏洞”的层面,但真正成熟的企业,安全治理不是从漏洞开始,而是从源头机制开始。这期我会讲一个你能直接在公司落地的“源头治理闭环体系”。 二、源头治理=不让漏洞流入生产,而不是到了生产再救火真正的治理不是:漏洞扫描→安全催修→开发修补→回归→发布而是:镜像基线→基础镜像治理→依赖链治理→CI/CD阶段截断风险→生产侧验证核心思想:“业务不应该部署带风险的镜像 四、治理闭环2:镜像依赖链治理(第二大漏洞爆发源)多语言项目常出现:Python多层依赖链NodeJS数千个npm包JavaJAR重复嵌套Golangvendoring冲突治理方式:引入SBOM建立依赖白名单锁定版本自动重建镜像漏洞只标记一次 六、治理闭环4:生产环境验证(防止绕过机制)包括:基础镜像识别证书签名验证运行时镜像一致性校验特权容器、危险能力检测公网暴露检查RBAC风险检测内部攻击路径体检这是最终兜底机制。 •第4期(本期):提出一套完整的治理闭环,从基础镜像到CI/CD,实现源头治理的方法论。•第5期(待发布):展望未来,讲解AI×云原生安全,即如何用大模型打造企业级的“风险决策引擎”,实现智能防火。

    6500编辑于 2025-12-30
  • 来自专栏橙子架构杂谈

    【服务治理】服务治理漫谈

    【服务治理】服务治理漫谈 0. 这能给我们后续无论是业务应用还是基础技术领域的服务治理提供一些参考。 1. 什么是服务治理 在一切的最开始,我们先来问自己一个问题,什么叫做服务治理? 我们需要什么样的服务治理 我们了解了什么是服务治理、服务治理是怎么演变发展的,这时候,我们不禁会想,我也要做服务治理!但是,请先停一下,请先问一下自己,我们需要什么样的服务治理4. 应用领域的指导原则 4.1 四个问题 网上有很多关于应该怎么拆分服务的文章,更多偏向技术层面。此处不加以赘述,我们讨论四个问题,也是经常困扰我们的四个重要问题: 应该在什么阶段进行拆分? 但,服务治理上,如何才能实现更高效的自动化呢?我认为: 自动化是治理的高级形态,而标准化是规模化治理的前提。

    4K31编辑于 2021-12-06
  • 来自专栏Star先生的专栏

    Fiddler + JSoup 爬取现代汉语语料库数据

    2BzUaXaUcHAjVptZHdcvx89wEPp&TextBoxCCkeywords=%E6%88%91&DropDownListPsize=500&Button1=%E6%A3%80++%E7%B4% A2&1=RBindexword&2=RadioButton4&txtTopage= 同理也可以获取下一页链接 http://www.cncorpus.org/CnCindex.aspx? 2BzUaXaUcHAjVptZHdcvx89wEPp &TextBoxCCkeywords=%E6%88%91&DropDownListPsize=500&1=RBindexword&2=RadioButton4& readSource(sourcePath); String pattenAttr = "\\/+[a-zA-Z]+"; String pattenall = "([\u4e00 IOException { StringBuilder builder = readSource(sourcePath); String pattenWord = "([\u4e00

    2K00发布于 2017-08-01
  • 来自专栏AI算法与图像处理

    SCI语料库!学术写作神器——Academic Phrasebank

    https://www.phrasebank.manchester.ac.uk/introducing-work/ 参考视频: https://www.bilibili.com/video/BV1Le4y1z7no

    2.4K30编辑于 2022-12-11
  • 来自专栏CreateAMind

    抽象和推理语料库的通用规划

    Generalized Planning for the Abstraction and Reasoning Corpus 抽象和推理语料库的通用规划 https://arxiv.org/abs/2401.07426 摘要 抽象和推理语料库(ARC)是一个通用的人工智能基准,由于其对流体智能的要求,侧重于推理和抽象,对于纯粹的机器学习方法来说具有挑战性。 其中一个任务,由Chollet(2019)引入的抽象和推理语料库(ARC),仍然是一个开放的挑战。 不同的节点定义可以弥补某种抽象的限制,如图4(左)所示,只有4-连接抽象是合理的。然而,对于给定的ARC任务,两种抽象可能会产生相同的节点,如图4(右)所示。 对于n = 4,合理的配置包括v = 1和v = 2,因为一个规划动作可以出现两次。对于n 4,v的值范围从1到3。

    51710编辑于 2024-07-05
  • 来自专栏全栈程序员必看

    服务治理

    服务治理可以说是微服务架构中最为核心和基础的模块,它主要用来实现各个微服务实例的自动化注册和发现。 1.阿里 – Dubbo 2.阿里 – HSF 3.腾讯 – Tars 4.JSF 5.CNCF – Linkerd 6.新浪 – Motan 7.istio 大部分(Linkerd除外、 除了这3个核心动作之外,其它的辅助操作还有统计上报、鉴权等等,这也是我们搭建一个服务治理框架需要实现的功能。从MVP的角度来说,注册、订阅、变更下发是最基础的核心功能。 服务治理的扩展 在企业中,我们可以针对服务治理做更多的扩展。比如:   1.基于版本号的服务管理,可以用于灰度发布。   2.请求的复制回放,用于模拟真实的流量进行压测。    4.更灵活的负载均衡和路由策略。   5.内置的熔断机制,避免整个分布式系统产生雪崩效应。

    1.2K30编辑于 2022-08-04
  • 来自专栏FreeBuf

    观点 | 数据治理与数据安全治理思考

    数据治理  数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为,包括数据治理计划、监控、实施。 从这8个能力域来看与数据治理需要的工具类似,因此我们在某一个层面上,可以DCMM为标准来进行数据治理的工作开展,或者认同DCMM作为现阶段数据治理的指导,不必深究数据治理与数据管理的差异化。 (数据安全复合治理与时间白皮书)  不同之处  →视角不同 数据治理的视角: 数据治理指利用数据驱动业务,实现企业增值。数据治理的智能化程度,决定了企业数字化转型的加速度。 而数据安全治理是数据治理的一个过程,是企业数字化转型进行数据治理中必经阶段,数据安全治理是否可以独立实施还有待详细讨论,数据安全治理是以保护数据的生命周期安全,需要的一系列管理和技术支撑,是数据安全领域数据 在现阶段多数中小企业数据中台或数据治理仍在建设中的情形下,根据数据治理的侧重点不同,在数据治理过程中实施数据安全治理的比重或阶段各不相同,甚至不包含数据安全治理

    2.3K30编辑于 2023-03-30
  • 语料库构建与主动学习标注工具解析

    大多数自然语言处理项目的成功关键取决于用于训练和评估模型的标注数据质量。本期节目中,某机构的Matt和Ines介绍了如何通过一款工具提升数据标注和模型开发工作流程。

    15510编辑于 2025-09-19
  • 来自专栏数据分析与挖掘

    COIG:开源四类中文指令语料库

    我们构建了5个开源的高质量中文指令语料库,包括68k的普通中文指令语料库、62k的中文考试指令语料库、3k的中文人值对齐语料库和13k的中文反事实校正多轮聊天语料库,作为沿着指出的研究方向构建新的中文教学语料库的样本 Part3COIG:中文开源指令数据通用语料库 第3.1节中分别介绍了一个经过人工验证的普通指令语料库,在第3.2节中介绍了一个经过人工注释的考试指令语料库,在第3.3节中介绍了一个人类价值调整指令语料库 我们提供这些新的指令语料库是为了帮助社区对中文LLMs进行指令调整。这些指令语料库也是如何有效建立和扩展新的中文指令语料库的模板工作流程。 人工验证:定义四个标签:1)可直接使用;2)可以使用,但要有实例的源输入和输出;3)需要人工修正后使用;4)不可使用。不可用的情况非常少,不到20个。 4多轮反事实修正聊天语料库 我们构建了反事实修正多轮聊天数据集(CCMC)。它是基于CN-DBpedia知识库(Xu等人,2017) 构建的,目的是缓解和解决当前LLM中的幻觉和事实不一致的痛点。

    1.4K20编辑于 2023-04-27
  • 来自专栏数据科学与人工智能

    基于Python的语料库数据处理(六)

    文 | 段洵 3756字 | 10 分钟阅读 一起来学习用Python进行语料库数据处理吧! 今天我们学习的内容是匹配零个或多个字符! 例子文本节选自 FROWN语料库。请完成下列检索匹配任务:①如何检索文本中所有以-ing结尾的单词?②如何检索文本中所有以th-开头的单词?③如何检索文本中所有数字或者含有数字的字符串? 假设有如下字符串,完成下列检索任务:①字符串的人名中,哪些由3个或4个字母组成?②字符串的人名中,哪些由6个或以上字母组成?③字符串的人名中,哪些由以J字母开头且以a字母结尾? Juliana Julia Leo Jane Jason Johansson John Bill Katherine ''' print(re.findall(r'\b\w{3,4} Julia'] print(re.findall(r'\bJ\w{5,}a\b', string)) # ['Juliana'] print(re.findall(r'\b[JKLM]\w{4,

    78510发布于 2021-01-28
  • 来自专栏韩锋频道

    浅析”IT治理

    目标4 - 构建可持续发展机制 企业内信息化建设,需要有个可持续发展机制。不能简单依靠领导命令方式,而转换为一个长期的发展规划。 3 IT治理、企业治理、IT管理的关系 这是三个很容易混淆的概念,只有理清三者关系,才能有效推动治理落地。 4 IT治理理论 COBIT,信息系统和技术控制目标 美国信息系统审计与控制协会-ISACA,于1996年推出了用于"IT审计"的知识体系COBIT。" IT治理实践 1 前提条件 明确目标 IT治理活动与企业治理过程相结合,并有企业领导的参与。IT治理专注于企业目标和战略,使用技术提高业务水平,并满足业务需求的足够可用的资源和能力。 4 管理制度原则 制度的制定要职责清晰、流程明确,在事前可以使员工对工作心中有数,事中可以使工作流程顺畅,事后有问题可以追求责任。

    4.1K40发布于 2019-06-06
  • 来自专栏深入浅出区块链技术

    探究Compound治理及构建治理界面

    治理的核心概念 一旦了解了基础知识,就可以轻松构建用于治理的接口或扩展其功能。要更深入地了解治理,请查看完整的文档[4]。为了快速入门,这里仅列出关键概念。 // Ropsten Governor Alpha Contract const governanceAddress = '0xc5bfed3bb38a3c4078d4f130f57ca4c560551d45 // Ropsten Governor Contract governanceAddress = '0xc5bfed3bb38a3c4078d4f130f57ca4c560551d45'; governanceAbi Compound治理资源 治理简介(2020年2月)[18] 治理发布公告(2020年4月)[19] Compound协议治理文档[20] Compound API 治理服务文档[21] 社区主导的治理论坛 (2020年2月): https://medium.com/compound-finance/compound-governance-5531f524cf68 [19] 治理发布公告(2020年4月):

    1.6K31发布于 2020-10-23
领券