搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

腾讯云大数据ES与DLC在RAG及LLM训练语料预处理中的应用实践
腾讯云DLC：LLM训练语料数据预处理方案腾讯云DLC（Data Lake Compute）提供了针对LLM训练语料数据的Spark预处理最佳实践。大模型训练数据预处理（AIGC场景）受众：AIGC企业、大模型训练团队。痛点：弹性需求：AI业务的数据处理量并非每天稳定，对按需弹性要求极高。场景：LLM训练前的语料数据预清洗、训练数据拼接与标记化。三、应用框架和功能介绍 1. 功能框架腾讯云ES RAG架构数据处理：用户问题 -> 查询转换 -> 提示词工程 -> 上下文窗口。腾讯云DLC预处理架构阶段：覆盖预清洗、训练数据拼接与标记化。核心路径：语料数据Spark预处理 -> 过滤与压缩调优（包含去重、文本向量化、Input文件大小优化） -> 热键数据发现及打散。 AIGC客户大模型训练预处理 背景：AIGC客户在训练大模型时，面临数据处理量波动大、且团队技能侧重于AI而非大数据处理的困境。解决方案：应用腾讯云DLC的语料数据Spark预处理最佳实践。
17810编辑于 2026-05-30
终极法则——Embedding、LLM 与“语料为王”
LLM：档案管理员与大脑很多人会将 Embedding 模型与 GPT-4 这样的大语言模型（LLM）混淆。它们的核心技术（Transformer）确实同源，但它们的目标和角色定位截然不同。终极法则：语料为王 (Data is King)无论是 Embedding 模型还是 LLM，我们必须牢记一个最根本的实践原则：模型的一切知识，都 100% 源于它所学习的训练数据（语料）。你计划应用模型的场景，必须与训练模型的语料场景高度匹配。如果你想为你的电商网站做一个商品搜索引擎，那么使用一个在海量商品评论和描述上训练过的 Embedding 模型，其效果会远超一个通用的新闻语料模型。因此，选择或训练一个与你业务场景高度相关的 Embedding 模型，是其在现实世界中取得成功的关键所在。
55010编辑于 2025-08-06
大模型备案对模型训练语料的要求
昨天接到一位客户的咨询，说他们的模型还在开发阶段，想提前了解一下大模型备案政策中对于模型训练语料有什么具体要求，提前规避一下。客户确实有前瞻性，考虑得比较充分。训练语料在研发阶段至关重要，直接影响模型的性能、安全性和合规性。一、训练语料数据来源合法性要求合规来源：语料需通过合法途径获取，禁止使用非法爬取、窃取或未授权的内容（如盗版书籍、隐私数据）。自采语料：需保留采集记录（含采集时间、采集方式），禁止采集通过 Robots 协议明确禁止的网页数据（如政府官网、金融机构敏感数据）。境外语料需通过安全评估。二、训练语料内容安全合规性要求严格规避《生成式人工智能服务安全基本要求》定义的 5 类 31 种不良语料敏感信息过滤：需移除涉及国家安全、暴力、色情、歧视、虚假信息等违规内容。时效性：定期更新语料以反映最新知识（如政策变化、技术进展）。去重与清洗：去除重复、低质量文本（如乱码、广告），提升训练效率。
75610编辑于 2025-04-25
来自专栏深度学习自然语言处理
NLP实践 | 用自己的语料进行MLM预训练
Bert为代表的预训练语言模型是在大规模语料的基础上训练以获得的基础的学习能力，而实际应用时，我们所面临的语料或许具有某些特殊性，这就使得重新进行 MLM 训练具有了必要性。 1.2 如何进行MLM训练 1.2.1 什么是MLM MLM 的训练，在不同的预训练模型中其实是有所不同的。今天介绍的内容以最基础的 Bert 为例。 time (10% of the time) we keep the masked input tokens unchanged return inputs, labels 然后取一些用于训练的语料可以做适当的预处理。构建一个训练方法，输入参数分别是我们实例化好的待训练模型，数据集，还有config： def train(model, train_dataloader, config): """ 训练
3.3K20编辑于 2022-08-26
来自专栏阿泽的学习笔记
【Embedding】GloVe：大规模语料中快速训练词向量
但我看完这篇论文还有一个非常大的疑惑：GloVe 是怎么训练的呢？ 4. Training image.png 那么问题来了：为什么不用一个矩阵和一个偏置项呢？这样计算量还可以减少一半，何乐不为？我们再简单分析一下 GloVe 的时间复杂度，从上面的实验结果来看 GloVe 的速度是非常快的，其原因主要有以下几点：时间复杂度低，最差为 O(C) ，即统计一遍语料库的共现矩阵，具体推导看论文； GloVe 与 Word2Vec 进行对比： Word2Vec 有神经网络，GloVe 没有； Word2Vec 关注了局部信息，GloVe 关注局部信息和全局信息；都有滑动窗口但 Word2Vec 是用来训练的
1.5K20发布于 2020-07-21
来自专栏尾尾部落
使用自己的语料训练word2vec模型
使用自己的语料训练word2vec模型一、准备环境和语料：新闻20w+篇（格式：标题。正文）【新闻可以自己从各大新闻网站爬取，也可以下载开源的新闻数据集，如互联网语料库(SogouT) 中文文本分类数据集THUCNews 李荣陆英文文本分类语料谭松波中文文本分类语料等 word2vec模型使用python的gensim包进行训练。 # model.train(more_sentences) if __name__ == "__main__": main() 参数说明 sentences：可以是一个·ist，对于大语料集 sg：用于设置训练算法，默认为0，对应CBOW算法；sg=1则采用skip-gram算法。 size：是指特征向量的维度，默认为100。大的size需要更多的训练数据,但是效果会更好.
6.8K30发布于 2018-09-04
来自专栏机器之心
NLP小白入门篇：莫愁前路，一文读懂语料预处理
自然语言处理是 AI 皇冠上的明珠，而语料预处理是自然语言处理的基础。 ? 机器能跟人类交流吗？能像人类一样理解文本吗？这是大家对人工智能最初的想象。现在你可以跟随本文，初探 NLP 技术的地基（语料预处理）是如何构建起来的。在之后的文章中，我们将循序渐进地介绍 NLP 中的特征提取以及最新算法解读。语料，顾名思义就是我们平时所说的文本，带有文字描述性的文本都可以归类于语料。但这种原始文本无法直接用来训练模型，需要进行前期预处理。语料预处理方法主要包括数据清洗、分词、词性标注、去停用词等。语料清洗语料清洗即保留语料中有用的数据，删除噪音数据。常见的清洗方式有：人工去重、对齐、删除、标注等。以下面的文本为例。常用的分词方法有基于规则的、基于统计的分词方法，而统计的样本内容来自于一些标准的语料库。
85930发布于 2020-08-04
来自专栏一点人工一点智能
全景解读 LLM 后训练技术
这些聪明表现的背后，得益于大语言模型（LLM）的两个关键训练阶段：预训练（Pretraining）和后训练（Post-training）。预训练阶段通过海量文本数据（通常达到 TB 级别）的自我监督学习，使模型··掌握基本的语言规律和世界知识。但仅有预训练的LLM，就好像刚学会六脉神剑的段誉，一身内功，但不会施展。这类方法通常冻结预训练模型的大部分参数，只训练少量额外的参数。 2.2.1 LoRA 系列技术低秩适配（LoRA）的核心思想是冻结原始参数，通过低秩分解引入可训练参数。 · 利用预训练知识：通过优化提示，引导模型利用预训练知识，从而减少对标注数据的依赖。 2）数学原理：公式：描述了可学习的提示向量。强化学习：从对齐到推理 3.1 LLM推理技术全景图 3.2 奖励建模奖励建模（Reward Modeling）是很多 RL 方法的关键步骤之一。
85010编辑于 2025-03-20
来自专栏计算机技术-参与活动
LLM高性能并行训练技术
LLM高性能并行训练技术### 研究背景与意义- **深度学习的重要性**：人工智能成为国际竞争焦点，深度学习是其核心技术，在众多领域取得突破，推动社会向智能化跃升。单个 GPU 难以满足大规模模型训练需求，分布式训练面临通信和内存瓶颈。相关技术与研究现状- **分布式训练 - **数据并行**：每个计算节点持有模型完整副本，处理小批量训练样本子集，通过 All - Reduce 或参数服务器架构实现全局梯度通信。 - **低精度训练**：用**低精度格式表示训练数据，降低内存占用提升性能**，但需引入误差补偿技术维持准确率。混合并行训练策略 - **成本模型构建**：深入分析模型训练中层内（数据并行和模型并行）和层间（流水线并行）并行性，分别构**建前向计算与反向计算的成本模型**。
48521编辑于 2024-12-31
LLM 系列（五）：模型训练篇
0、引言大语言模型（Large Language Model, LLM）的训练是人工智能领域最复杂、最资源密集的任务之一。 • 能力的源泉：模型的所有能力都来自于训练过程中对数据的学习和参数的优化 • 性能的决定因素：训练质量直接决定了模型在各种任务上的表现 • 成本的主要构成：训练成本占据了LLM开发总成本的70%以上 • 技术的核心壁垒：高效的训练技术是各大AI公司的核心竞争力本文将从技术原理、实践方法、挑战难点等多个维度，全面解析LLM模型训练的核心技术。 1、LLM 训练基本流程整体训练管道阶段一：预训练（Pre-training）核心目标技术特点 1、学习通用语言表示2、掌握基础语言模式3、建立世界知识基础4、形成语言生成能力 1、自监督学习方式训练高（2倍参数量） AdamW Adam + 权重衰减解耦主流LLM优化器高 Lion 符号操作，内存友好资源受限场景中等 LOMO 低内存优化消费级硬件训练很低数据处理技术 3、模型训练方案分析
1.9K30编辑于 2025-07-02
来自专栏自然语言处理
【LLM训练系列03】关于大模型训练常见概念讲解
随着LLM学界和工业界日新月异的发展，不仅预训练所用的算力和数据正在疯狂内卷，后训练（post-training）的对齐和微调等方法也在不断更新。下面笔者根据资料整理一些关于大模型训练常见概念解释。 2 Post-training（后训练）后训练是指在预训练模型的基础上，针对特定的任务或数据集进行额外的训练。 3 Continue Training（持续训练）持续训练是指在模型已经进行了预训练和可能的后训练之后，继续在新数据上进行训练，以不断更新和改进模型的性能。可能在模型部署后的任何阶段进行。持续训练是指在模型已经进行了预训练和可能的后训练之后，继续在新数据上进行训练，以不断更新和改进模型的性能。应用在自然语言处理（NLP）中，预训练模型如 BERT 或 GPT 通过在大规模文本语料库上进行训练，学习语言的通用模式。
2.4K11编辑于 2024-12-20
来自专栏自然语言处理
【LLM训练系列01】Qlora如何加载、训练、合并大模型
训练命令如下： ! model.enable_input_require_grads() prepare_model_for_kbit_training函数说明调用 prepare_model_for_kbit_training（）函数来预处理用于训练的量化模型（PreTrainedModel），以便进行低比特（k-bit）量化训练或其他特定情况下的训练。这是为了确保数值稳定性，特别是在低精度下训练时。此配置非常适合需要在低资源环境下进行高效训练的场景。
1K10编辑于 2024-11-23
来自专栏大数据文摘
训练ChatGPT的必备资源：语料、模型和代码库完全指南
ChatGPT是一种基于大规模语言模型技术（LLM， large language model）实现的人机对话工具。但是，如果我们想要训练自己的大规模语言模型，有哪些公开的资源可以提供帮助呢？语料训练大规模语言模型，训练语料不可或缺。主要的开源语料可以分成5类：书籍、网页爬取、社交媒体平台、百科、代码。前者在GPT-2等小模型中使用较多，而MT-NLG 和 LLaMA等大模型均使用了后者作为训练语料。最常用的网页爬取语料是CommonCrawl[18]。不过该语料虽然很大，但质量较差。代码语料主要来自于GitHub中的项目，或代码问答社区。开源的代码语料有谷歌的BigQuery[26]。大语言模型CodeGen在训练时就使用了BigQuery的一个子集。而 ROOTS[28]整合了59种语言的语料，包含1.61TB的文本内容。上图统计了这些常用的开源语料。目前的预训练模型大多采用多个语料资源合并作为训练数据。
3.7K40编辑于 2023-04-10
来自专栏第一专栏
LLM-TAP随笔——语言模型训练数据【深度学习】【PyTorch】【LLM】
删除标准：训练语料库似然性的增加量 "语料库的似然性"通常是指一个特定文本序列（通常是一段文本或一个句子）在语料库中出现的概率。检查点是模型在训练或生成过程中的某个时间点的保存状态，通常包括模型的权重参数和其他相关信息，以便稍后能够重新加载模型并继续训练或进行推理。通常，few-shot learning 指的是模型在少于常规训练所需数量的样本上进行训练。这可以包括几个样本（通常小于10个）或更多，但总体上比传统的大规模训练数据要少。思维树(Tree of Thoughts, ToT)：ToT提示是一种允许复杂的、多步骤问题通过LLM来解决的方法。人类反馈训练：人类反馈的强化学习（RLHF）
85150编辑于 2023-09-26
来自专栏JAVA
数据预处理错误导致模型训练失败
数据预处理错误导致模型训练失败摘要大家好，我是默语，擅长全栈开发、运维和人工智能技术。在这篇博客中，我将深入探讨数据预处理过程中可能导致模型训练失败的常见错误，并提供详细的解决方案。引言在人工智能和机器学习项目中，数据预处理是一个至关重要的环节。正确的数据预处理可以显著提升模型的性能，而错误的数据预处理则可能导致模型训练失败，甚至得出错误的结论。通过正确的数据预处理，我们可以提高模型的训练效果，减少模型的训练时间，并提升模型的预测精度。常见的数据预处理错误及解决方案数据缺失处理不当数据缺失是数据预处理中最常见的问题之一。小结在数据预处理阶段，细心和严谨是关键。通过正确的数据预处理方法，可以显著提高模型的训练效果和预测精度。希望通过本文的介绍，大家能够更加重视数据预处理过程，避免常见错误，确保模型训练的顺利进行。未来，更多先进的数据预处理方法和工具将会出现，帮助我们更加高效地处理数据，提高模型的训练效果。
78910编辑于 2024-11-22
来自专栏机器学习AI算法工程
海量中文语料上预训练ALBERT模型：参数更少，效果更好
ALBERT模型是BERT的改进版，与最近其他State of the art的模型不同的是，这次是预训练小模型，效果更好、参数更少。预训练小模型也能拿下13项NLP任务，ALBERT三大改造登顶GLUE基准它对BERT进行了三个改造： 1）词嵌入向量参数的因式分解 Factorized embedding parameterization 18M, 层数24，10月13号 3、albert_xlarge, 参数量59M, 层数24，10月6号 4、albert_xxlarge, 参数量233M, 层数12，10月7号（效果最佳的模型）训练语料 40g中文语料，超过100亿汉字，包括多个百科、新闻、互动社区、小说、评论。
1K10发布于 2019-10-28
从0开始训练自己的LLM（5）
准备完模型和训练数据后，我们可以开始计算损失函数，并开始训练。
15710编辑于 2026-03-18
来自专栏NewBeeNLP
LLM 盛行，如何优雅地训练大模型？
然而，大量实验证明，在高质量的训练语料进行指令微调（Instruction-tuning）的前提下，超过百亿参数量的模型才具备一定的涌现能力，尤其是在一些复杂的推理任务上，例如下图：图来自论文《因此在有限的算力条件下训练或推理一个百亿量级的大模型是不太现实的。因此，无疑要在训练和推理两个阶段采用一些优化策略来解决此类问题。本篇博文主要整理一系列大模型在训练和推理两个阶段的优化技术，以满足我们在有限的计算资源的条件下训练自己的大模型，下面列出本文主要介绍的一些优化技术：混合精度训练：FP16+FP32 或 BF16+ 基于ZeRO在训练过程中的原理，有博主分享比较精妙的图，来源于[多图，秒懂]如何训练一个“万亿大模型”？[2]。在训练时，只需要对红色部分的参数进行训练和梯度计算保存，因此大大降低了训练过程中的开销。
3.3K30编辑于 2023-09-01
从0开始训练自己的LLM（2）
其核心优势在于并行计算和长距离依赖捕捉，成为大语言模型（LLM）的基石。而注意力机制是基石的基石。核心组件包括查询（Query）、键（Key）、值（Value）三个权重矩阵。 # In practice, this is not a problem since the LLM (chapters 4-7) ensures that inputs # In practice, this is not a problem since the LLM (chapters 4-7) ensures that inputs
16410编辑于 2026-03-18
从0开始训练自己的LLM（4）
前面我们介绍了构建LLM的完整流程，现在我们将所有流程串接起来，并开始训练整个模型。 # In practice, this is not a problem since the LLM (chapters 4-7) ensures that inputs
15310编辑于 2026-03-18

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

腾讯云大数据ES与DLC在RAG及LLM训练语料预处理中的应用实践

终极法则——Embedding、LLM 与“语料为王”

大模型备案对模型训练语料的要求

NLP实践 | 用自己的语料进行MLM预训练

【Embedding】GloVe：大规模语料中快速训练词向量

使用自己的语料训练word2vec模型

NLP小白入门篇：莫愁前路，一文读懂语料预处理

全景解读 LLM 后训练技术

LLM高性能并行训练技术

LLM 系列（五）：模型训练篇

【LLM训练系列03】关于大模型训练常见概念讲解

【LLM训练系列01】Qlora如何加载、训练、合并大模型

训练ChatGPT的必备资源：语料、模型和代码库完全指南

LLM-TAP随笔——语言模型训练数据【深度学习】【PyTorch】【LLM】

数据预处理错误导致模型训练失败

海量中文语料上预训练ALBERT模型：参数更少，效果更好

从0开始训练自己的LLM（5）

LLM 盛行，如何优雅地训练大模型？

从0开始训练自己的LLM（2）

从0开始训练自己的LLM（4）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐