首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型应用

    大模型应用:语料库治理实战:基于 text2vec+BERT 的由浅入深解析.41

    今天我们将从基础概念到实践落地,完整讲解如何基于text2vec-base-chinese(语义分析)和bert-base-chinese(质量评分)实现小语料库治理,所有模型均通过本地加载方式部署,无需依赖云端服务 语料库治理的定义语料库治理(Corpus Governance)是指对原始文本数据进行采集、清洗、去重、质量评估、存储管理的全流程,核心目标是:降低噪声率(冗余、错误、无意义内容占比);提升文本质量(语法正确性 对于小语料库治理的核心原则是精而不是多,哪怕只有 1G 高质量语料,也远胜于 10G 脏数据。2. 语料库治理的问题2.1 完全重复:模型的记忆超载问题体现:同一段文本像复读机一样反复出现。 治理要点:建立精细化的领域分类系统,为不同应用场景构建领域纯净或领域平衡的语料集。3. 语料库治理的取舍 语料库治理并非简单的“剔除所有问题”,而是一门融合的艺术。 本地存储:结构化存储治理后的高质量语料五、示例:语料库治理实践1. 原始语料生成模拟包含噪声的原始语料(重复、短文本、格式混乱、错别字),覆盖 3 个核心领域。

    34443编辑于 2026-03-10
  • 来自专栏JasonhavenDai

    人民日报标注语料库(PFR)1.标记说明2.格式说明3.例子4.生语料库和熟语料库5.其他语料库汇总

    Tg 时间语素 t 时间词 Ug 助语素 u 助词 Vg 动语素 v 动词 vd 副动词 vn 名动词 w 标点符号 x 非语素字 Yg 语气语素 y 语气词 z 状态词 2. 标号之后,是2个单字节空格,然后开始正文。 正文部分按照规范已经切分成词,并且加上标注,标注的格式为“词语/词性”,即词语后面加单斜线,再紧跟词性标记。词与词之间用2个单字节空格隔开。 每段最后的词,在标记之后也有2个单字节空格,保持格式一致。 语料中除了词性标记以外,还有“短语标记”,这种情况一般出现在机构团体名称、成语等情况中。 /w 4.生语料库和熟语料库 语料库中存放的是在语言的实际使用中真实出现过的语言材料,语料库是以电子计算机为载体承载语言知识的基础资源,真实语料需要经过加工 、分析和处理之后才能成为可用的语料库语料库是指收集之后未加工的预料库 相对而言,熟语料库就是经过加工的 5.其他语料库汇总 http://blog.csdn.net/qq

    5.9K80发布于 2018-04-11
  • 来自专栏机器学习与python集中营

    语料库】中文公开聊天语料库

    注意 以下所有语料都已经统一下载好,存在 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex 中。 github.com/candlewill/Dialog_Corpus 使用方法 下载语料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex

    9.8K50发布于 2019-05-29
  • 来自专栏明天依旧可好的专栏

    原始语料库

    第一步: 判断数据中是否存在重复数据 创建python文件– 代码框架 ''' author: kzb time: 2018-12-10 ''' import pandas as pd import os,csv dataPath = os.path.join("音译原始数据.csv") def import_data(dataPath): ''' 导入文件中的数据 return:dataFrame ''' pass def find_En_Cn_excess(dataFrame

    99030发布于 2019-01-22
  • 来自专栏java架构计划训练营

    SpringCloud Feign服务治理(2)

    2、在调用方和被调用方服务启动类入口添加注解,并配置扫描路径 @EnableDiscoveryClient //让注册中心能够发现这个服务 @EnableFeignClients(basePackages

    22710编辑于 2022-06-14
  • 来自专栏机器学习AI算法工程

    文本分类中语料库的获取——搜狗语料库

    这次主要总结搜过语料库的获取,因为老师要求20万数据,而我自己只爬了2万多,所以用到了搜狗的语料库. \sougou_after2' + '\\' + f # 加上标签后的文本 text_init_dir = file_dir + '\\' + f #原始文本 # print \sougou_before2") path = ". \sougou_after2") 说明一下几个目录: sougou_before2:存放原始的txt sougou_after2:存放加上<docs></docs>且处理了&的txt sougou_all

    3.2K80发布于 2018-03-14
  • 来自专栏瞎说开发那些事

    服务治理 2 --- Eureka集群

    一、 高可用注册中心 在上一篇[微服务系列] 服务治理—Eureka文章中,介绍了服务注册中心的单节点搭建部署。 然而在常用的微服务结构设计中,一般都是采用分布式的环境,以避免单机故障导致服务调用不可用,所以需要对微服务中的各个组件进行高可用的部署,服务治理中的服务注册中心也是一样。 本章将结合以下的拓扑图构建高可用的服务治理。 ? 三、 快速实践 01 1. 02 2. 服务的发现与消费 1. 生产服务 服务发现与消费主要涉及到两个内容:一是发现服务,而是对发现的服务进行消费(即调用)。 2. 消费服务 服务消费者采用Ribbon负载均衡器来实现。

    720100发布于 2018-06-19
  • 来自专栏写代码和思考

    Spring Cloud 学习笔记(2) 服务治理 Eureka

    2. 知识 Eureka 是 Spring Cloud Netflix 微服务套件中的一部分。Netflix Eureka来实现服务注册与发现, 它包含了服务端和客户端组件。 服务注册:在服务治理框架中, 通常都会构建一个注册中心, 每个服务单元向注册中心登记自己提供的服务, 将主机与端口号、 版本号、 通信协议等一些附加信息告知注册中心, 注册中心按服务名分类组织服务清单。 image.png 在完成了服务注册中心的搭建之后,接下将一个Spring Boot 应用加 入 Emeka 的服务治理体系中去。 示例 我们将搭建 peer1 和 peer2 两个 Eureka,互相注册。一旦注册完毕后,它们之间将会互相同步。 1112/eureka/ 步骤2,第二个 Eureka 服务:peer2 的配置 修改配置文件 application.properties server.port=1112 spring.application.name

    45730发布于 2021-05-13
  • 来自专栏并发笔记

    手写dubbo框架2-服务治理(zookeeper探讨)

    开始进入主题,本文主要介绍的是服务的注册和发现,也就是图片中的第1,2,3步,既然要实现服务治理,那么我们需要一个统一管理服务东西,也就是注册中心。 这里多说一句,图中的2,3很明显是分两步来处理。如果只是从注册中心拿到provider而已,那为什么要分两步呢?而且我所认识的单词也有限,要是我取名的话我可能会给它取名叫做get、return。 听起来好像上述完全可以解决我们的服务治理的功能。但是这只是对于单个provider来说。 znode,如下 [zk: localhost:2181(CONNECTED) 1] ls /[zookeeper, faregistrys][zk: localhost:2181(CONNECTED) 2]

    79261发布于 2019-07-15
  • 来自专栏希里安

    微服务治理?容器治理

    可识别英语、俄语、中文等语言,感兴趣的可以看下--[Translumo](https://github.com/Danily07/Translumo) 微服务和容器治理 微服务治理和容器治理都是与分布式应用程序和容器化部署相关的领域 微服务治理(Microservices Governance): 微服务治理是管理和维护微服务架构中的各个微服务组件的一系列策略、实践和工具。 自动化: 自动化是微服务治理的核心,包括自动部署、自动伸缩和自动化测试等。 容器治理(Container Orchestration): 容器治理是管理容器化应用程序的一系列策略和工具。 容器治理实例 容器治理是确保容器化应用程序在分布式环境中可靠运行的一组实践和工具。 容器治理: 安全性容器治理可以管理访问控制、证书管理和数据加密,以确保数据的保密性和完整性。

    1.1K40编辑于 2023-10-30
  • 来自专栏实时流式计算

    【译文】数据治理与BI治理

    几十年来,数据治理一直是企业关注的焦点,并随着企业数据量的急剧增长,数据治理的重要性日益凸显。然而,大规模的有效BI治理一直是一个难以实现的目标,因为它需要比传统数据治理更广泛的关注点。 毕竟,如果给用户的交付物不一致,或者缺乏适当的上下文以确保业务用户正确地理解数据,那么所谓高质量、精心治理的数据又有什么价值呢? 有效的BI治理要求组织为数据和分析的治理建立流程。 BI门户的关键治理角色体现在以下两个场景:独立的BI治理平台,或与数据目录协同工作。 什么是数据治理? 数据治理是一组确保有效管理和利用数据的过程和技术的集合。 组织中的分析师和数据管理员使用数据治理工具来执行公司治理政策,来促进数据的正确使用。 应用这些工具进行数据治理需要大量的持续投资,因此许多组织希望从这些投资中获得可观的投资回报。 什么是BI治理

    1.5K40编辑于 2023-03-24
  • 来自专栏橙子架构杂谈

    【服务治理】服务治理漫谈

    【服务治理】服务治理漫谈 0. …… 2. 牺牲一定的性能和资源,换取服务治理理整体的⾼高度⾃自治和可运营 2. 执⾏行行和控制分离,数据平⾯面和控制平⾯面切割 3. 虚拟化、标准化、产品化,定义规范。 我们需要什么样的服务治理 我们了解了什么是服务治理、服务治理是怎么演变发展的,这时候,我们不禁会想,我也要做服务治理!但是,请先停一下,请先问一下自己,我们需要什么样的服务治理2. 咨询第二定律:不管一开始看起来什么样,它永远是人的问题。 人是复杂的动物,你必然会发现,脱离组织结构来谈最佳的系统设计是不切实际的。

    4K31编辑于 2021-12-06
  • 来自专栏Star先生的专栏

    Fiddler + JSoup 爬取现代汉语语料库数据

    %2FCwLzuO7zDQL3uO7zDQLV%2BYmkCgLZ%2BYmkCgKM54rGBgK8u9naBwKJlM7DBwKAg8rcDgKWzvT1CAKWzuCuBwK2q5qHDgK%2FxfDTAQLxqL %2BhAgLCpJSTBQKKn9X3AwKLlOLCBgLc%2F9LTBQL3t9jyBALZu%2BPjB6rMBlDgd9II8LdS4y%2BzUaXaUcHAjVptZHdcvx89wEPp %2FCwLzuO7zDQL3uO7zDQLV%2BYmkCgLZ%2BYmkCgKM54rGBgK8u9naBwKJlM7DBwKAg8rcDgKWzvT1CAKWzuCuBwK2q5qHDgK%2FxfDTAQLxqL %2BhAgLCpJSTBQKKn9X3AwKLlOLCBgLc%2F9LTBQL3t9jyBALZu%2BPjB6rMBlDgd9II8LdS4y%2BzUaXaUcHAjVptZHdcvx89wEPp %2FCwLzuO7zDQL3uO7zDQLV%2BYmkCgLZ%2BYmkCgKM54rGBgK8u9naBwKJlM7DBwKAg8rcDgKWzvT1CAKWzuCuBwK2q5qHDgK%2FxfDTAQLxqL

    2K00发布于 2017-08-01
  • 来自专栏AI算法与图像处理

    SCI语料库!学术写作神器——Academic Phrasebank

    https://www.phrasebank.manchester.ac.uk/introducing-work/

    2.4K30编辑于 2022-12-11
  • 来自专栏CreateAMind

    抽象和推理语料库的通用规划

    Generalized Planning for the Abstraction and Reasoning Corpus 抽象和推理语料库的通用规划 https://arxiv.org/abs/2401.07426 摘要 抽象和推理语料库(ARC)是一个通用的人工智能基准,由于其对流体智能的要求,侧重于推理和抽象,对于纯粹的机器学习方法来说具有挑战性。 其中一个任务,由Chollet(2019)引入的抽象和推理语料库(ARC),仍然是一个开放的挑战。 图2展示了一个ARC任务片段的PDDL域和实例文件。动作方案和谓词的参数前面有“?”符号,外部函数前面有“@”符号。 对于一个ARC任务,表1显示了可用的对象及其类型,而表2展示了可用的谓词来建模节点属性及其关系。

    51610编辑于 2024-07-05
  • 来自专栏全栈程序员必看

    服务治理

    服务治理可以说是微服务架构中最为核心和基础的模块,它主要用来实现各个微服务实例的自动化注册和发现。 中 istio 谷歌、IBM、Lyft 是 少 Ps:Spring Cloud Eureka是Spring Cloud Netflix 微服务套件的一部分,主要负责完成微服务架构中的服务治理功能 1.阿里 – Dubbo 2.阿里 – HSF 3.腾讯 – Tars 4.JSF 5.CNCF – Linkerd 6.新浪 – Motan 7.istio 大部分(Linkerd除外、 除了这3个核心动作之外,其它的辅助操作还有统计上报、鉴权等等,这也是我们搭建一个服务治理框架需要实现的功能。从MVP的角度来说,注册、订阅、变更下发是最基础的核心功能。 服务治理的扩展 在企业中,我们可以针对服务治理做更多的扩展。比如:   1.基于版本号的服务管理,可以用于灰度发布。   2.请求的复制回放,用于模拟真实的流量进行压测。   

    1.2K30编辑于 2022-08-04
  • 来自专栏FreeBuf

    观点 | 数据治理与数据安全治理思考

    数据治理  数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为,包括数据治理计划、监控、实施。 从这8个能力域来看与数据治理需要的工具类似,因此我们在某一个层面上,可以DCMM为标准来进行数据治理的工作开展,或者认同DCMM作为现阶段数据治理的指导,不必深究数据治理与数据管理的差异化。 (数据安全复合治理与时间白皮书)  不同之处  →视角不同 数据治理的视角: 数据治理指利用数据驱动业务,实现企业增值。数据治理的智能化程度,决定了企业数字化转型的加速度。 而数据安全治理是数据治理的一个过程,是企业数字化转型进行数据治理中必经阶段,数据安全治理是否可以独立实施还有待详细讨论,数据安全治理是以保护数据的生命周期安全,需要的一系列管理和技术支撑,是数据安全领域数据 在现阶段多数中小企业数据中台或数据治理仍在建设中的情形下,根据数据治理的侧重点不同,在数据治理过程中实施数据安全治理的比重或阶段各不相同,甚至不包含数据安全治理

    2.3K30编辑于 2023-03-30
  • 语料库构建与主动学习标注工具解析

    大多数自然语言处理项目的成功关键取决于用于训练和评估模型的标注数据质量。本期节目中,某机构的Matt和Ines介绍了如何通过一款工具提升数据标注和模型开发工作流程。

    15510编辑于 2025-09-19
  • 来自专栏数据分析与挖掘

    COIG:开源四类中文指令语料库

    Part2现有的指令语料库 如果指令数据是从现有的公共数据集中获得的,并且数据处理管道是公开的,那么它就被认为是开源的。 获取数据集的一般手段有:人工标注、半自动和自动构建、使用LLM、翻译。 人工验证:定义四个标签:1)可直接使用;2)可以使用,但要有实例的源输入和输出;3)需要人工修正后使用;4)不可使用。不可用的情况非常少,不到20个。 2考试指令语料库 我们使用potato(Pei et al., 2022),一个主动学习驱动的开源注解网站模板,进行人工注解,从原始考试题中提取六个信息元素,包括指令、问题背景、问题、答案、答案分析和粗粒度的主题 3人类价值对齐指令语料库 我们将价值排列数据分为两个独立的集合:1)一组呈现华语世界共同的人类价值的样本;2)一些呈现区域文化或国家特定的人类价值的额外样本集合。 因此,我们从CC-BY-SA-4.0许可的集合中建立了Leetcode指令的2,589个编程问题。这些问题包含问题描述、多种编程语言和解释.

    1.4K20编辑于 2023-04-27
  • 来自专栏数据科学与人工智能

    基于Python的语料库数据处理(六)

    文 | 段洵 3756字 | 10 分钟阅读 一起来学习用Python进行语料库数据处理吧! 今天我们学习的内容是匹配零个或多个字符! 例子文本节选自 FROWN语料库。请完成下列检索匹配任务:①如何检索文本中所有以-ing结尾的单词?②如何检索文本中所有以th-开头的单词?③如何检索文本中所有数字或者含有数字的字符串? 比如,r{2}可以匹配“rr”;r{2,}可以匹配连续2次或更多次出现的r字母,如“rr”或者“rrrr”等;r{0,3}可以匹配出现0次或者1次或连续出现2次或3次的r字母。 2.[]的用法 []中加入普通字符表示可以匹配其中任意字符。比如,[abcd]可以匹配a或b或c或d。 假设我们只希望匹配重复2次或3次的“字母+数字”组合,则需要用([a-z]+[0-9]+){2,3}来匹配。 我们来看一个例子。

    78410发布于 2021-01-28
领券