搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏一点人工一点智能
全景解读 LLM 后训练技术
这些聪明表现的背后，得益于大语言模型（LLM）的两个关键训练阶段：预训练（Pretraining）和后训练（Post-training）。预训练阶段通过海量文本数据（通常达到 TB 级别）的自我监督学习，使模型··掌握基本的语言规律和世界知识。但仅有预训练的LLM，就好像刚学会六脉神剑的段誉，一身内功，但不会施展。这类方法通常冻结预训练模型的大部分参数，只训练少量额外的参数。 2.2.1 LoRA 系列技术低秩适配（LoRA）的核心思想是冻结原始参数，通过低秩分解引入可训练参数。 · 利用预训练知识：通过优化提示，引导模型利用预训练知识，从而减少对标注数据的依赖。 2）数学原理：公式：描述了可学习的提示向量。强化学习：从对齐到推理 3.1 LLM推理技术全景图 3.2 奖励建模奖励建模（Reward Modeling）是很多 RL 方法的关键步骤之一。
70310编辑于 2025-03-20
来自专栏计算机技术-参与活动
LLM高性能并行训练技术
LLM高性能并行训练技术### 研究背景与意义- **深度学习的重要性**：人工智能成为国际竞争焦点，深度学习是其核心技术，在众多领域取得突破，推动社会向智能化跃升。单个 GPU 难以满足大规模模型训练需求，分布式训练面临通信和内存瓶颈。相关技术与研究现状- **分布式训练 - **数据并行**：每个计算节点持有模型完整副本，处理小批量训练样本子集，通过 All - Reduce 或参数服务器架构实现全局梯度通信。 - **低精度训练**：用**低精度格式表示训练数据，降低内存占用提升性能**，但需引入误差补偿技术维持准确率。混合并行训练策略 - **成本模型构建**：深入分析模型训练中层内（数据并行和模型并行）和层间（流水线并行）并行性，分别构**建前向计算与反向计算的成本模型**。
42521编辑于 2024-12-31
LLM 系列（五）：模型训练篇
0、引言大语言模型（Large Language Model, LLM）的训练是人工智能领域最复杂、最资源密集的任务之一。 • 能力的源泉：模型的所有能力都来自于训练过程中对数据的学习和参数的优化 • 性能的决定因素：训练质量直接决定了模型在各种任务上的表现 • 成本的主要构成：训练成本占据了LLM开发总成本的70%以上 • 技术的核心壁垒：高效的训练技术是各大AI公司的核心竞争力本文将从技术原理、实践方法、挑战难点等多个维度，全面解析LLM模型训练的核心技术。 1、LLM 训练基本流程整体训练管道阶段一：预训练（Pre-training）核心目标技术特点 1、学习通用语言表示2、掌握基础语言模式3、建立世界知识基础4、形成语言生成能力 1、自监督学习方式技术创新前沿未来发展趋势 7、总结技术本质理解 • 统计学习的力量：大规模数据中蕴含的统计规律是智能涌现的基础 • 规模效应显著：模型规模、数据规模、计算规模的协同增长带来能力跃迁 • 涌现现象普遍
1.5K30编辑于 2025-07-02
来自专栏自然语言处理
【LLM训练系列03】关于大模型训练常见概念讲解
随着LLM学界和工业界日新月异的发展，不仅预训练所用的算力和数据正在疯狂内卷，后训练（post-training）的对齐和微调等方法也在不断更新。下面笔者根据资料整理一些关于大模型训练常见概念解释。 2 Post-training（后训练）后训练是指在预训练模型的基础上，针对特定的任务或数据集进行额外的训练。 3 Continue Training（持续训练）持续训练是指在模型已经进行了预训练和可能的后训练之后，继续在新数据上进行训练，以不断更新和改进模型的性能。可能在模型部署后的任何阶段进行。持续训练是指在模型已经进行了预训练和可能的后训练之后，继续在新数据上进行训练，以不断更新和改进模型的性能。 7 自回归模型 GPT 是如何在人类的文本数据上实现自监督学习？用一句话就可以讲明白：用文本的前文来预测后文。
2.1K11编辑于 2024-12-20
来自专栏自然语言处理
【LLM训练系列01】Qlora如何加载、训练、合并大模型
训练命令如下： ! （PreTrainedModel），以便进行低比特（k-bit）量化训练或其他特定情况下的训练。这是为了确保数值稳定性，特别是在低精度下训练时。 fine-tuning-llama-2-using-lora-and-qlora-a-comprehensive-guide 选择模型 model_name = "NousResearch/Llama-2-7b-chat-hf " dataset_name = "mlabonne/guanaco-llama2-1k" new_model = "Llama-2-7b-chat-finetune-qlora" 参数设置 lora_r
88210编辑于 2024-11-23
来自专栏第一专栏
LLM-TAP随笔——语言模型训练数据【深度学习】【PyTorch】【LLM】
3、语言模型训练数据数据质量对模型影响非常大。典型数据处理：质量过滤、冗余去除、隐私消除、词元切分等。训练数据的构建时间、噪音或有害信息情况、数据重复率等因素都对模型性能有较大影响。检查点是模型在训练或生成过程中的某个时间点的保存状态，通常包括模型的权重参数和其他相关信息，以便稍后能够重新加载模型并继续训练或进行推理。通常，few-shot learning 指的是模型在少于常规训练所需数量的样本上进行训练。这可以包括几个样本（通常小于10个）或更多，但总体上比传统的大规模训练数据要少。思维树(Tree of Thoughts, ToT)：ToT提示是一种允许复杂的、多步骤问题通过LLM来解决的方法。人类反馈训练：人类反馈的强化学习（RLHF）
79750编辑于 2023-09-26
从0开始训练自己的LLM（5）
准备完模型和训练数据后，我们可以开始计算损失函数，并开始训练。
11710编辑于 2026-03-18
来自专栏NewBeeNLP
LLM 盛行，如何优雅地训练大模型？
本篇博文主要整理一系列大模型在训练和推理两个阶段的优化技术，以满足我们在有限的计算资源的条件下训练自己的大模型，下面列出本文主要介绍的一些优化技术：混合精度训练：FP16+FP32 或 BF16+ 基于ZeRO在训练过程中的原理，有博主分享比较精妙的图，来源于[多图，秒懂]如何训练一个“万亿大模型”？[2]。关于3D并行的方法可参考文献：一文捋顺千亿模型训练技术：流水线并行、张量并行和3D并行[7] 六、INT8量化深度学习模型量化是一个面向模型参数的显存优化技术，其与FP16比较类似，都是为了损失一些精度来降低空间在训练时，只需要对红色部分的参数进行训练和梯度计算保存，因此大大降低了训练过程中的开销。 transformers.Trainin: https://huggingface.co/docs/transformers/v4.27.2/en/main_classes/trainer#transformers.Trainin [7]
3.1K30编辑于 2023-09-01
从0开始训练自己的LLM（2）
其核心优势在于并行计算和长距离依赖捕捉，成为大语言模型（LLM）的基石。而注意力机制是基石的基石。核心组件包括查询（Query）、键（Key）、值（Value）三个权重矩阵。 # In practice, this is not a problem since the LLM (chapters 4-7) ensures that inputs # In practice, this is not a problem since the LLM (chapters 4-7) ensures that inputs
10110编辑于 2026-03-18
从0开始训练自己的LLM（6）
训练完后的模型如何给业务用呢？需要把模型的参数保存下来，给业务用，下次加载出来就可以了。训练完模型后，我们使用训练好的模型来进行一次文本推理 inference_device = torch.device("cpu") model.to(inference_device) model.eval
10110编辑于 2026-03-18
来自专栏NewBeeNLP
浅谈训练LLM的一些小技巧
655006628 后台留言『交流』，加入 NewBee算法讨论组最近国产大模型一群神仙打架，各个榜刷的分越来越高了，聊一下基于1.3b的模型的一些实验结论，抛个砖希望对开源社区有帮助一、LLama llama训练了 1T的token（更大的尺寸模型训练了1.4T），除此之外还需要模型结构和超参数配合才能继续训练这么长时间。在一开始训练的时候，大部分的token对模型来说都是未知的，所以参数能快速的更新，但是训练的时间越久，每个batch都需要包含对模型来说陌生的多样化数据，所以batch size很大。二、AliBi position encoding 最早的Transformer使用绝对位置编码，这意味着2048个位置都有自己的可训练向量。之前尝试过使用别的方式代替可训练参数，效果也很好，说明这里可能确实不需要可训练参数。
1.2K20编辑于 2023-10-09
从0开始训练自己的LLM（4）
前面我们介绍了构建LLM的完整流程，现在我们将所有流程串接起来，并开始训练整个模型。 # In practice, this is not a problem since the LLM (chapters 4-7) ensures that inputs
9210编辑于 2026-03-18
从0开始训练自己的LLM（3）
然后正则化，对模型输出的最终特征进行归一化处理，通过调整输入分布（均值为0，方差为1）加速收敛，提升模型训练稳定性。 max_new_tokens): # Crop current context if it exceeds the supported context size # E.g., if LLM 但是其中有一个问题还没有解决，那就是如何训练模型，得到模型参数。我们下一章进行分解。
10310编辑于 2026-03-18
来自专栏自然语言处理
【LLM系列之Tokenizer】如何科学地训练一个LLM分词器
如果你把“ de ”出现的单词的频率加起来，你会得到 3 + 2 + 1 + 1 = 7，这就是我们新的“ de ”标记的频率。由于“ de ”是一个新token，我们需要重新计算所有标记的计数。我们通过从合并操作之前的单个字符的频率中减去新的“ de ”标记的频率 7 来实现这一点。如果我们考虑一下，这是有道理的。我们刚刚创建了一个新的token“ de ”。这在我们的数据集中出现了 7 次。现在我们只想计算“ d ”和“ e ”未配对时出现的次数。为此，我们从“ e”的原始出现频率中减去 7”，16，得到 9。我们从“ d ”的原始频率，12 中减去 7，得到 5，可以在“迭代 1”表中看到这一点。 LLM分词器 SentencePiece的核心参数如下： """ sentencepiece 参数 trainer_spec { input: data/corpus.txt input_format
5.9K31编辑于 2023-08-25
来自专栏机器学习算法与Python学习
Torch7模型训练
Torch7搭建卷积神经网络详细教程已经详细的介绍啦Module模块，这里再次基础上再给出一些上Container、 Transfer Functions Layers和 Simple Layers模块的理解并在后面给出一些简单的模型训练方法。下述程序在itorch qtconsole下运行。上一篇博文讲到Module主要有四个函数(详细见Torch7搭建卷积神经网络详细教程)，但是注意以下几点：forward函数的input必须和backward的函数的input一致，否则梯度更新会有问题上述函数的具体使用方法可以看Torch7的官方API以及帮助文档。接下来仅介绍一些模型训练所需要的关键函数。将image包导入当前运行环境，随机生成一张1通道32x32的彩色图像，如下 ? 然后，使用神经网络net的updateParameters()更新权重，该方法的输入值为学习率，即完成了训练。
1K130发布于 2018-04-08
来自专栏DeepHub IMBA
SAPO去中心化训练：多节点协作让LLM训练效率提升94%
大规模语言模型的后训练一直是个让人头疼的事情——要么资源不够，要么效率太低。SAPO提出了一种去中心化的异步RL方案，让各个计算节点之间可以互相分享rollouts，避开了传统并行化训练的各种瓶颈。还有个很有趣的设定：节点不一定非要参与训练。你可以让人类专家或者其他非传统的生成器加入进来，只要输出格式兼容就行。训练流程看起来是这样的：每轮训练中，节点先采样一批任务，生成对应的rollouts，然后把其中一部分（连同元数据和标准答案）分享给整个网络。训练集构建完成后，用本地的奖励模型计算分数，再用PPO或GRPO这类策略梯度方法更新模型。整个过程循环往复。比如Qwen2.5（0.5B参数），在175轮训练后的表现明显超过单机训练。但对于Qwen3（0.6B参数）这样的大模型，改善就不太明显了。
15010编辑于 2025-11-15
来自专栏DeepHub IMBA
LUMOS：基于开源LLM的可训练的代理框架
基于LLM的agent可以利用LLM对问题进行推理，制定解决问题的计划，然后利用各种工具执行复杂的任务。 LUMOS的训练 LUMOS最主要的一个特点是他像模型那样是可以训练的，训练过程包括以下步骤: 1、训练数据生成先前的工作利用self - instruction来综合训练任务和输入，并根据其创建的任务直接生成真值任务输出但是种方法可能不适合为训练代理生成高质量的注释。所以LUMOS将llm被用作“风格转移”工具，将现有基准中的真值推理步骤转换为LUMOS公式中的预期格式。有了这些参考，llm可以根据给定的动作接口总结高级子目标并合成相应的动作。为llm提供了如何从推理步骤中提取高级子目标并将其映射为相应行动的示例。最后将注释组织成响应输出。在StrategyQA[7]和HotpotQA[8]数据集上，基于gpt -4/3.5的代理在复杂QA上的表现优于基于gpt -4/3.5的代理。
74510编辑于 2024-04-15
来自专栏自然语言处理
【LLM训练系列04】手把手教你Qlora微调
导入包 import os os.environ["CUDA_VISIBLE_DEVICES"]="7" from dataclasses import dataclass, field import QLoRA 是什么 QLoRA 是一种高效的模型微调方法，特别适合在资源有限的情况下对大型语言模型（LLM）进行微调。加速训练：由于只需要训练少量的低秩矩阵，而不是整个模型的参数，训练速度会显著加快。（即在训练过程中会被更新的），以及有多少参数是不可训练的（即在训练过程中保持不变的）。参考资料 QwenLM/Qwen Qwen7b微调保姆级教程
61010编辑于 2024-12-21
来自专栏自然语言处理(NLP)论文速递
代码增强LLM！UIUC | 概述将代码数据加入LLM训练数据中的各种好处
更多干货，第一时间送达大模型时代的语言模型（LLM）不仅在尺寸上变得更大了，而且训练数据也同时包含了自然语言和形式语言（代码）。最近，来自伊利诺伊大学香槟分校的研究团队发布了一篇综述报告，概述了将代码集成到LLM训练数据中的各种好处。代码预训练提升LLM性能以OpenAI的GPT Codex 为例，对 LLM 进行代码预训练后，可以扩大LLM的任务范围，除了自然语言处理外，模型还可以为数学理论生成代码、执行通用编程任务、数据检索等在预训练中利用和嵌入代码的这两种特性，可以提高LLM思维链（CoT）技术在传统自然语言下游任务中的性能，表明代码训练能够提高LLM进行复杂推理的能力。在下一步的研究工作中，重要的是要研究在训练数据中加强认识：这些代码属性是否真的可以增强训练的LLMs的推理能力。
80510编辑于 2024-01-31
来自专栏NLP/KG
人工智能LLM模型：奖励模型的训练、PPO 强化学习的训练、RLHF
人工智能LLM模型：奖励模型的训练、PPO 强化学习的训练、RLHF 1.奖励模型的训练 1.1大语言模型中奖励模型的概念在大语言模型完成 SFT 监督微调后，下一阶段是构建一个奖励模型来对问答对作出得分评价 2.PPO 强化学习的训练 2.1 PPO 强化学习概念大语言模型完成奖励模型的训练后，下一个阶段是训练强化学习模型（RL 模型），也是最后一个阶段。由于 KL 散度是越小越好，而训练目标是损失函数越大越好，因此在前面需要加上一个负号。预训练部分：预训练部分对应损失函数中的Ex∼Dpretrain[log(πϕRL(x))]。这种训练方法也叫做 RLHF。目前，RLHF 技术对训练大语言模型具有极大的影响力，训练出来的效果好于之前的方法。强化学习、判别式模型大语言模型训练中的PPO强化学习：1.在大语言模型训练中，强化学习模型架构与SFT监督微调的模型一样，2.RLHF中训练强化学习模型阶段不需要标注问题的答案 3.RLHF中的初始策略就是
2K00编辑于 2023-07-17

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

全景解读 LLM 后训练技术

LLM高性能并行训练技术

LLM 系列（五）：模型训练篇

【LLM训练系列03】关于大模型训练常见概念讲解

【LLM训练系列01】Qlora如何加载、训练、合并大模型

LLM-TAP随笔——语言模型训练数据【深度学习】【PyTorch】【LLM】

从0开始训练自己的LLM（5）

LLM 盛行，如何优雅地训练大模型？

从0开始训练自己的LLM（2）

从0开始训练自己的LLM（6）

浅谈训练LLM的一些小技巧

从0开始训练自己的LLM（4）

从0开始训练自己的LLM（3）

【LLM系列之Tokenizer】如何科学地训练一个LLM分词器

Torch7模型训练

SAPO去中心化训练：多节点协作让LLM训练效率提升94%

LUMOS：基于开源LLM的可训练的代理框架

【LLM训练系列04】手把手教你Qlora微调

代码增强LLM！UIUC | 概述将代码数据加入LLM训练数据中的各种好处

人工智能LLM模型：奖励模型的训练、PPO 强化学习的训练、RLHF

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐