首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型应用

    大模型应用:大模型训练数据治理:噪声过滤与高质量中文语料构建实践.40

    今天我们将从基础概念入手,拆解大模型训练数据治理的核心流程,结合实践案例探讨噪声过滤的关键方法,并延伸现有语料治理维度,深入分析数据质量对模型性能的影响,为高质量中文语料构建提供可落地的参考方案。 高质量中文语料的核心标准高质量中文语料需满足 “准确性、全面性、纯净性、新” 四大核心标准:3.1 准确性准确性是语言规范与知识可靠性的基石,是高质量语料的首要标准。 3.2 全面性全面性是构建多维度的语言与知识谱系,高质量中文语料库应像一幅广阔的地图,覆盖语言使用的各个维度。 高质量语料提升模型泛化能力:准确、多样的高质量语料能让模型学习到中文语言的本质规律,从而在未见过的新任务、新场景中表现出更强的泛化能力。六、案例实践1. 随着大模型技术的发展,数据治理将成为一种大的趋势,我们可以利用大模型自身进行数据清洗与质检,实现以模型治理数据,以数据优化模型的闭环;同时可以针对不同行业、不同场景的需求,构建专属的高质量中文语料库。

    36032编辑于 2026-03-09
  • 来自专栏机器学习与python集中营

    语料库】中文公开聊天语料

    github.com/codemayq/chaotbot_corpus_Chinese python进阶教程 机器学习 深度学习 长按二维码关注 说明 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料 青云语料 电视剧对白语料 贴吧论坛回帖语料 微博语料 小黄鸡语料 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。 给出的语料原链接是为了说明该语料的原始出处是在哪里 环境 python3 处理过程 将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。 数据来源及说明 语料名称 语料数量 语料来源说明 语料特点 语料样例 是否已分词 chatterbot 560 开源项目 按类型分类,质量较高 Q:你会开心的 A:幸福不是真正的可预测的情绪。 否 xiaohuangji(小黄鸡语料) 45W 原人人网项目语料 有一些不雅对话,少量噪音 Q:你谈过恋爱么 A:谈过,哎,别提了,伤心..。

    9.8K50发布于 2019-05-29
  • 来自专栏澜舟科技 NLP

    论文领读|合成数据的妙用:低成本构建高质量的大规模平行语料

    但人工构建高质量平行数据是一件成本巨大的事情,且几乎不可能满足目前神经机器翻译对数据量的需求。因此人们退而求其次,尝试通过自动构建平行数据的技术,低成本地构建大规模平行数据。 ,该论文利用合成数据,对挖掘得到的平行数据中不完全对齐的数据进行替换,从而得到高质量的平行语料。 3.2 机器翻译(MT)模型质量对比MT 任务通过两种方式构建模型:1、使用语料库从头开始训练一个 MT 模型;2、对mT59 模型进行继续训练(continued training)。 图片图片结果表明新语料构建的 MT 模型在两种语言的四个方向上均具有明显的优势。而相较于从头开始训练,mT5 的继续训练表现出更大的改进。 该论文相较于先前工作关注的合成数据的特点 11,13 和利用合成数据进行增强 14,15 的方法,从降低原始语料噪声的角度对合成数据的作用进行了分析和解释,丰富了我们对双语平行数据集构建和利用方面的理解

    80130编辑于 2022-06-16
  • AI 搜索的底层“喂料”工程:如何通过高质量语料构建 RAG 语义护城河?

    对于技术团队而言,GEO(生成式引擎优化)的本质不再是传统的关键词博弈,而是一场关于“高质量语料投喂”的工程竞赛。一、RAG架构中的“数据偏好”:AI到底喜欢什么样的信息? 三、技术切入:星链引擎在语料工程中的自动化实践在构建高质量、低延迟的AI语料库方面,星链引擎展现了其作为AI基础设施构建者的技术深度。 通过构建结构化、高可信且规模化的语义信源,企业才能在RAG架构的检索链条中脱颖而出,让品牌真正成为AI搜索引擎首选的“标准答案”。

    29510编辑于 2025-12-22
  • 来自专栏新智元

    中文NLP福利!大规模中文自然语言处理语料

    众所周知,中文NLP领域缺乏高质量中文语料。 一期目标:10个百万级中文语料 & 3个千万级中文语料(2019年5月1号) 二期目标:30个百万级中文语料 & 10个千万级中文语料 & 1个亿级中文语料(2019年12月31日) 为什么需要这个项目 ,做预训练的语料构建词向量,也可以用于构建知识问答。 可能的用途: 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建 更好句子表示的模型、句子相似性任务等。 Reference 利用Python构建Wiki中文语料词向量模型试验 A tool for extracting plain text from Wikipedia dumps Open Chinese

    7.9K30发布于 2019-03-07
  • 来自专栏AI研习社

    Github 项目推荐 | 中文突发事件语料

    Github 链接: https://github.com/shijiebei2009/CEC-Corpus 中文突发事件语料库是由上海大学(语义智能实验室)所构建。 ,最后将标注结果保存到语料库中,CEC合计332篇。 中文信息学报(已录用) [2] 付剑锋, 刘宗田, 刘炜, 周文. 基于层叠条件随机场的事件因果关系抽取[J]. 基于条件随机场的中文时间短语识别[J]. 计算机工程, 2011, 37(15):164-167. 事件本体构建中几个关键问题的研究[D]. 上海:上海大学, 2012. 硕士论文: [1] 费胜男. 意念事件研究[D].

    1.7K40发布于 2018-07-26
  • 来自专栏数据分析与挖掘

    COIG:开源四类中文指令语料

    该文的贡献如下: 据我们所知,这是最早的研究工作之一,专门总结了现有的中文指令微调语料库,并就未来如何构建中文指令微调语料库提出了见解。 我们构建了5个开源的高质量中文指令语料库,包括68k的普通中文指令语料库、62k的中文考试指令语料库、3k的中文人值对齐语料库和13k的中文反事实校正多轮聊天语料库,作为沿着指出的研究方向构建新的中文教学语料库的样本 我们构建了一个人工验证的通用高质量中文指令调优语料库,可直接用于中文LLMs的指令调优,包括商业和非商业的。 同时,我们还收集了19,470个样本作为区域性的增补,这些样本是针对中国用户的(包括许多只在中文社区使用的术语)。 4多轮反事实修正聊天语料库 我们构建了反事实修正多轮聊天数据集(CCMC)。 6指令语料构建工作流程的实证验证 本节总结了关于中文指令语料库建设工作流程的合理实证结论和经验。

    1.4K20编辑于 2023-04-27
  • 来自专栏数据分析与挖掘

    利用TfidfVectorizer进行中文文本分类(数据集是复旦中文语料

    1、对语料进行分析 基本目录如下: ? 其中train存放的是训练集,answer存放的是测试集,具体看下train中的文件: ? 14: 'Agriculture', 15: 'Medical', 16: 'Art', 17: 'Transport', 18: 'Literature', 19: 'Politics'} 接下来我们构建真正的训练集和测试集 【 责任编辑 】 蔡际洲 字库 未存 字 注释 : @ ① 原字 王右 加当 @ ② 原字 氵 右 加蒙 @ ③ 原字 氵 右 加莹']] [[16] [16]] 然后是构建测试集: test_data

    1.4K52发布于 2020-10-10
  • 来自专栏数据分析与挖掘

    利用CNN进行中文文本分类(数据集是复旦中文语料

    利用TfidfVectorizer进行中文文本分类(数据集是复旦中文语料) 利用RNN进行中文文本分类(数据集是复旦中文语料) 上一节我们利用了RNN(GRU)对中文文本进行了分类,本节我们将继续使用 CNN对中文文本进行分类。

    2K40发布于 2020-10-28
  • 来自专栏机器学习AI算法工程

    高质量中文预训练模型汇总

    机器学习AI算法工程   公众号:datayx 在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型 Mengzi-BERT ChineseBERT TaCL MC-BERT 二郎神 PERT MobileBERT GAU-α 全部链接  获取方式: 关注微信公众号 datayx  然后回复 中文训练 《美团机器学习实践》_美团算法团队.pdf 《深度学习入门:基于Python的理论与实现》高清中文PDF+源码 《深度学习:基于Keras的Python实践》PDF和代码 特征提取与图像处理(第二版 ).pdf python就业班学习视频,从入门到实战项目 2019最新《PyTorch自然语言处理》英、中文版PDF+源码 《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF Machine Learning Yearning 中文翻译稿 蚂蚁金服2018秋招-算法工程师(共四面)通过 全球AI挑战-场景分类的比赛源码(多模型融合) 斯坦福CS230官方指南:CNN、RNN

    2.9K10编辑于 2022-06-02
  • 来自专栏数据分析与挖掘

    利用RNN进行中文文本分类(数据集是复旦中文语料

    利用TfidfVectorizer进行中文文本分类(数据集是复旦中文语料) 1、训练词向量 数据预处理参考利用TfidfVectorizer进行中文文本分类(数据集是复旦中文语料) ,现在我们有了分词后的 fp.write(content+'\t'+str(label)+'\n') fp.close() save(content_list,label_list) 2、训练word2vec,构建词向量 globals()['__doc__'] % locals()) # sys.exit(1) # input_dir, outp1, outp2 = sys.argv[1:4] # 训练模型 # 输入语料目录 要将训练好的向量和词编号进行对应; 将数据集中的句子中的每个词用编号代替,对标签也进行编号,让标签和标签编号对应; 文本可使用keras限制它的最大长度,标签进行onehot编码; 读取数据集(文本和标签),然后构建

    1.4K20发布于 2020-10-28
  • 来自专栏数据分析与挖掘

    利用transformer进行中文文本分类(数据集是复旦中文语料

    阅读本文,你可以了解中文文本分类从数据预处理、模型定义、训练和测试的整个流程。 一、熟悉数据 数据的格式是这样子的: 基本目录如下: ? globals()['__doc__'] % locals()) # sys.exit(1) # input_dir, outp1, outp2 = sys.argv[1:4] # 训练模型 # 输入语料目录 return dict(vocab_after) #返回前6000个词,将元组构成的列表转换为字典 将文本转换为id,将标签转换为Id def _wordToIdx(self): #构建词汇和 = {i:word for i,word in enumerate(vocab)} return word2idx,idx2word def _labelToIdx(self): #构建词汇列表和到

    5.2K20发布于 2020-11-04
  • 语料构建与主动学习标注工具解析

    工具目前已应用于多个工业级自然语言处理 pipeline 的构建

    15510编辑于 2025-09-19
  • AI高质量语料库平台:智能时代的“语言基建”技术揭秘

    我们日常用的AI聊天助手、翻译软件、语音转文字工具,看似“聪明”的背后,都离不开一个核心支撑——语料库。 如果说AI是会学习的“学生”,语料库就是它的“教材”,而高质量语料库平台,就是给AI编出“优质教材”的技术工坊。今天就用通俗的话,聊聊这个平台里藏着的关键技术。首先是数据筛选与去重技术。 语料库常要用到真实场景数据(比如用户咨询记录、企业文档),但必须保护隐私。 同时,它还能接收AI模型的“反馈”——如果AI某类问题回答不准,平台就自动补充相关语料,让“教材”常更常新。 其实AI高质量语料库平台的核心,就是用一系列技术把“杂乱数据”变成“AI能高效学习的优质资源”。它不用复杂的公式,却靠着“筛选-清洗-标注-合规-迭代”的技术闭环,让AI学对、学准、学得新。

    52610编辑于 2025-11-23
  • 来自专栏hanlp学习笔记

    Spark应用HanLP对中文语料进行文本挖掘--聚类

    问题描述     现在有一个中文文本数据集,这个数据集已经对其中的文本做了分类,如下: image.png 其中每个文件夹中含有个数不等的文件,比如环境有200个,艺术有248个;同时,每个文件的内容基本上就是一些新闻报道或者中文描述 -- 中文分词框架 --> <dependency> <groupId>com.hankcs</groupId> <artifactId> 3.3 Scala调用HanLP进行中文分词 Scala调用HanLP进行分词和Java的是一样的,同时,因为这里有些词语格式不正常,所以把这些特殊的词语添加到自定义词典中,其示例如下: import CoreStopWordDictionary.apply(list) list.map(x => x.word.replaceAll(" ","")).toList } } 输入即是一个中文的文本

    1.6K00发布于 2018-10-30
  • 来自专栏老张的求知思考世界

    构建高质量的持续交付体系

    交付的软件产品除了质量之外,交付效率对团队来说也是很重要的一点,而持续高效的交付高质量的软件产品,更需要一个高效的持续交付技术体系支撑。 要实现持续交付,项目一般需要满足这些条件: 代码构建的过程可以反复高频进行,且每次构建结果是一致稳定的; 所有环境配置信息都存于源代码管理工具中(现在有配置中心组件如Nacos/Apollo); 针对不同环境需要部署的代码包 ,需要自动编译和创建不同版本; 所有环境的构建编译部署发布步骤必须是自动化完成; DevOps和持续交付的关系 持续交付要求代码可以反复高频的构建编译,代码包的测试部署发布需要自动化来完成,但传统的研发交付流程已经渐渐不适应当下的业务变化 无论是DevOps,还是所谓的TestOps,其实都指的是开发/测试和运维同学一起通过高效协作的方式来更快的构建、测试和发布软件。 ; 要实践DevOps,意味着团队需要去做这些事: 构建自动化流水线系统,从构建测试到部署实现高度自动化; 建立完善精确的监控体系,尽力让信息变透明,数据可度量; 建立跨团队跨职能的沟通协作机制,形成团队的流程和文化

    75910编辑于 2023-03-01
  • 来自专栏机器学习AI算法工程

    海量中文语料上预训练ALBERT模型:参数更少,效果更好

    18M, 层数24,10月13号 3、albert_xlarge, 参数量59M, 层数24,10月6号 4、albert_xxlarge, 参数量233M, 层数12,10月7号(效果最佳的模型) 训练语料 40g中文语料,超过100亿汉字,包括多个百科、新闻、互动社区、小说、评论。

    97210发布于 2019-10-28
  • 来自专栏数据分析与挖掘

    基于tensorflow的文本分类总结(数据集是复旦中文语料

    代码已上传到github:https://github.com/taishan1994/tensorflow-text-classification 往期精彩: 利用TfidfVectorizer进行中文文本分类 (数据集是复旦中文语料) 利用RNN进行中文文本分类(数据集是复旦中文语料) 利用CNN进行中文文本分类(数据集是复旦中文语料) 利用transformer进行中文文本分类(数据集是复旦中文语料 ) 基于tensorflow的中文文本分类 数据集:复旦中文语料,包含20类 数据集下载地址:https://www.kesci.com/mw/dataset/5d3a9c86cf76a600360edd04

    1.3K20发布于 2020-11-12
  • 来自专栏Nodejs技术栈

    构建高质量的前端工程完全指南

    本文将结合自己的一些实际经验,来阐述自己的一个观点:构建大型高质量前端工程,合理的代码约束与正确的团队运转机制可能更为重要。 什么是高质量的工程代码? 高质量的工程代码,并不等价于性能最优,技术最新,复用性最强的技术选型。 不同的技术只是工具,怎么用工具,能把工具用到什么程度,最终取决于开发者自身,所以高质量的工程代码,更多应该从业务和工程的角度考虑问题,而非技术选型。 所以,高质量的工程代码应该是结合业务与团队情况,真正能够提升研发效率,降低项目维护成本的代码。 谁决定了工程代码的质量?

    43830发布于 2021-11-18
  • 来自专栏机器学习AI算法工程

    大规模中文自然语言处理语料(百科,问答、新闻,翻译)

    ://loveai.tech 为什么需要这个项目 中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。 1.维基百科json版(wiki2019zh) 104万个词条(1,043,224条; 原始文件大小1.6G,压缩文件519M;数据更新时间:2019.2.7) 可以做为通用中文语料,做预训练的语料构建词向量 可能的用途: 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建 更好句子表示的模型、句子相似性任务等。 4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 可能的用途: 可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; 由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料

    3.8K20发布于 2019-10-28
领券