首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 从0开始训练自己的LLM6

    训练完后的模型如何给业务用呢?需要把模型的参数保存下来,给业务用,下次加载出来就可以了。 训练完模型后,我们使用训练好的模型来进行一次文本推理 inference_device = torch.device("cpu") model.to(inference_device) model.eval

    10110编辑于 2026-03-18
  • 来自专栏一点人工一点智能

    全景解读 LLM训练技术

    这些聪明表现的背后,得益于大语言模型(LLM)的两个关键训练阶段:预训练(Pretraining)和后训练(Post-training)。 预训练阶段通过海量文本数据(通常达到 TB 级别)的自我监督学习,使模型··掌握基本的语言规律和世界知识。但仅有预训练LLM,就好像刚学会六脉神剑的段誉,一身内功,但不会施展。 这类方法通常冻结预训练模型的大部分参数,只训练少量额外的参数。 2.2.1 LoRA 系列技术 低秩适配(LoRA) 的核心思想是冻结原始参数,通过低秩分解引入可训练参数。 · 利用预训练知识:通过优化提示,引导模型利用预训练知识,从而减少对标注数据的依赖。 2)数学原理: 公式: 描述了可学习的提示向量。 强化学习:从对齐到推理 3.1 LLM推理技术全景图 3.2 奖励建模 奖励建模(Reward Modeling) 是很多 RL 方法的关键步骤之一。

    70310编辑于 2025-03-20
  • 来自专栏计算机技术-参与活动

    LLM高性能并行训练技术

    LLM高性能并行训练技术### 研究背景与意义- **深度学习的重要性**:人工智能成为国际竞争焦点,深度学习是其核心技术,在众多领域取得突破,推动社会向智能化跃升。 单个 GPU 难以满足大规模模型训练需求,分布式训练面临通信和内存瓶颈。 相关技术与研究现状- **分布式训练 - **数据并行**:每个计算节点持有模型完整副本,处理小批量训练样本子集,通过 All - Reduce 或参数服务器架构实现全局梯度通信。 - **低精度训练**:用**低精度格式表示训练数据,降低内存占用提升性能**,但需引入误差补偿技术维持准确率。 混合并行训练策略 - **成本模型构建**:深入分析模型训练中层内(数据并行和模型并行)和层间(流水线并行)并行性,分别构**建前向计算与反向计算的成本模型**。

    42521编辑于 2024-12-31
  • LLM 系列(五):模型训练

    0、引言 大语言模型(Large Language Model, LLM)的训练是人工智能领域最复杂、最资源密集的任务之一。 • 能力的源泉:模型的所有能力都来自于训练过程中对数据的学习和参数的优化 • 性能的决定因素:训练质量直接决定了模型在各种任务上的表现 • 成本的主要构成:训练成本占据了LLM开发总成本的70%以上 •  技术的核心壁垒:高效的训练技术是各大AI公司的核心竞争力 本文将从技术原理、实践方法、挑战难点等多个维度,全面解析LLM模型训练的核心技术。 1、LLM 训练基本流程 整体训练管道 阶段一:预训练(Pre-training) 核心目标 技术特点 1、学习通用语言表示2、掌握基础语言模式3、建立世界知识基础4、形成语言生成能力 1、自监督学习方式 0.050 • 实际应用 • 资源配置:根据缩放定律优化计算资源分配 • 性能预测:预估不同规模下的模型性能 • 成本效益:找到最优的规模与成本平衡点 • 研发规划:指导下一代模型的设计方向 哲学层面思考 6

    1.5K30编辑于 2025-07-02
  • 来自专栏自然语言处理

    LLM训练系列03】关于大模型训练常见概念讲解

    随着LLM学界和工业界日新月异的发展,不仅预训练所用的算力和数据正在疯狂内卷,后训练(post-training)的对齐和微调等方法也在不断更新。下面笔者根据资料整理一些关于大模型训练常见概念解释。 2 Post-training(后训练) 后训练是指在预训练模型的基础上,针对特定的任务或数据集进行额外的训练。 3 Continue Training(持续训练) 持续训练是指在模型已经进行了预训练和可能的后训练之后,继续在新数据上进行训练,以不断更新和改进模型的性能。 可能在模型部署后的任何阶段进行。 持续训练是指在模型已经进行了预训练和可能的后训练之后,继续在新数据上进行训练,以不断更新和改进模型的性能。 我们希望通过这种方式将其泛化到训练中尚未出现的问题中去。 6 自监督学习 大型语言模型本质上就是神经网络,也就是一种机器学习的方法。机器学习中的监督学习需要人类帮助标注数据。

    2.1K11编辑于 2024-12-20
  • 来自专栏自然语言处理

    LLM训练系列01】Qlora如何加载、训练、合并大模型

    训练命令如下: ! (PreTrainedModel),以便进行 低比特(k-bit)量化训练 或其他特定情况下的训练。 这是低比特量化训练常见的步骤,用于只训练部分特定参数。 非量化模型处理: 如果模型未被量化,所有的非 INT8 参数(比如 FP16 或 BF16)都会被强制转换为 FP32。 这是为了确保数值稳定性,特别是在低精度下训练时。 此配置非常适合需要在低资源环境下进行高效训练的场景。

    88210编辑于 2024-11-23
  • 来自专栏第一专栏

    LLM-TAP随笔——语言模型训练数据【深度学习】【PyTorch】【LLM

    3、语言模型训练数据 数据质量对模型影响非常大。 典型数据处理:质量过滤、冗余去除、隐私消除、词元切分等。 训练数据的构建时间、噪音或有害信息情况、数据重复率等因素都对模型性能有较大影响。 检查点是模型在训练或生成过程中的某个时间点的保存状态,通常包括模型的权重参数和其他相关信息,以便稍后能够重新加载模型并继续训练或进行推理。 通常,few-shot learning 指的是模型在少于常规训练所需数量的样本上进行训练。这可以包括几个样本(通常小于10个)或更多,但总体上比传统的大规模训练数据要少。 思维树(Tree of Thoughts, ToT):ToT提示是一种允许复杂的、多步骤问题通过LLM来解决的方法。 人类反馈训练:人类反馈的强化学习(RLHF)

    79750编辑于 2023-09-26
  • 来自专栏LLM-RL

    LLM-RL训练框架:3大流派+6大框架,一文搞定

    原文:https://mp.weixin.qq.com/s/9f4mqYVGKNS-LhmHLl6CXwLLM-RL往期文章推荐小白也能看懂的RL-PPO收藏! 其中,LLM训练和微调技术成为了这波技术浪潮的大功臣。在前面几篇中,我们详细介绍了LLM-RL训练、微调的核心算法原理。本篇将聚焦梳理LLM-RL开源LLM-RL训练框架。 2025年DeepSeek-R1等模型崛起后,在线采样和过程奖励模型相关的慢思考能力成竞争重点,倒逼社区革新LLM-RL训练框架。 1LLM-RL训练的挑战与架构演变为了更好的理解各大框架的设计理论,我们先简单剖析下LLM-RL训练中的挑战点。 6垂直领域与高性能计算框架除了上述四大通用框架,还存在针对特定需求优化的LLM-RL解决方案。

    1.3K10编辑于 2026-01-20
  • 从0开始训练自己的LLM(5)

    准备完模型和训练数据后,我们可以开始计算损失函数,并开始训练

    11710编辑于 2026-03-18
  • 来自专栏NewBeeNLP

    LLM 盛行,如何优雅地训练大模型?

    本篇博文主要整理一系列大模型在训练和推理两个阶段的优化技术,以满足我们在有限的计算资源的条件下训练自己的大模型,下面列出本文主要介绍的一些优化技术: 混合精度训练 :FP16+FP32 或 BF16+ EleutherAI团队近期发布一篇博客来介绍如何估计一个大模型的算力成本,公式如下: C=\tau T\approx 6PD 其中: C 表示Transformer需要的计算量,单位是FLOP; FSDP:https://huggingface.co/docs/transformers/v4.27.2/en/main_classes/trainer#transformers.Trainin[6] 在训练时,只需要对红色部分的参数进行训练和梯度计算保存,因此大大降低了训练过程中的开销。 introducing-pytorch-fully-sharded-data-parallel-api/ [5] https://pytorch.org/docs/stable/fsdp.html: https://pytorch.org/docs/stable/fsdp.html [6]

    3.1K30编辑于 2023-09-01
  • 从0开始训练自己的LLM(2)

    其核心优势在于并行计算和长距离依赖捕捉,成为大语言模型(LLM)的基石。而注意力机制是基石的基石。核心组件包括查询(Query)、键(Key)、值(Value)三个权重矩阵。 # In practice, this is not a problem since the LLM (chapters 4-7) ensures that inputs # In practice, this is not a problem since the LLM (chapters 4-7) ensures that inputs

    10110编辑于 2026-03-18
  • 来自专栏NewBeeNLP

    浅谈训练LLM的一些小技巧

    655006628 后台留言『交流』,加入 NewBee算法讨论组 最近国产大模型一群神仙打架,各个榜刷的分越来越高了,聊一下基于1.3b的模型的一些实验结论,抛个砖希望对开源社区有帮助 一、LLama llama训练了 1T的token(更大的尺寸模型训练了1.4T),除此之外还需要模型结构和超参数配合才能继续训练这么长时间。 在一开始训练的时候,大部分的token对模型来说都是未知的,所以参数能快速的更新,但是训练的时间越久,每个batch都需要包含对模型来说陌生的多样化数据,所以batch size很大。 二、AliBi position encoding 最早的Transformer使用绝对位置编码,这意味着2048个位置都有自己的可训练向量。 之前尝试过使用别的方式代替可训练参数,效果也很好,说明这里可能确实不需要可训练参数。

    1.2K20编辑于 2023-10-09
  • 从0开始训练自己的LLM(4)

    前面我们介绍了构建LLM的完整流程,现在我们将所有流程串接起来,并开始训练整个模型。 # In practice, this is not a problem since the LLM (chapters 4-7) ensures that inputs

    9210编辑于 2026-03-18
  • 从0开始训练自己的LLM(3)

    接着经过Transformer层的处理,通常包含 6 到 12 个 Block(如 GPT-2 有 12 层),每层包含自注意力机制、前馈神经网络和残差连接。 然后正则化,对模型输出的最终特征进行归一化处理,通过调整输入分布(均值为0,方差为1)加速收敛,提升模型训练稳定性。 max_new_tokens): # Crop current context if it exceeds the supported context size # E.g., if LLM disable dropout out = generate_text_simple( model=model, idx=encoded_tensor, max_new_tokens=6, 但是其中有一个问题还没有解决,那就是如何训练模型,得到模型参数。我们下一章进行分解。

    10310编辑于 2026-03-18
  • 来自专栏自然语言处理

    LLM系列之Tokenizer】如何科学地训练一个LLM分词器

    (3)词表中的低频词/稀疏词在模型训练过程中无法得到充分训练,进而模型不能充分理解这些词的语义。 ; 支持 BPE 和 UniLM 训练方法。 '9', '*', '8', '6', '7', '$'] 3.5 HuggingFace Tokenizers HuggingFace的Tokenizers也实现了分词算法,具体使用可以参考如下 LLM分词器 SentencePiece的核心参数如下: """ sentencepiece 参数 trainer_spec { input: data/corpus.txt input_format ,并且中文测试效果比较差,在做中文增量的时候,我们可以将自己在中文训练语料训练的分词模型和原版llama分词模型合并: #!

    5.9K31编辑于 2023-08-25
  • 来自专栏DeepHub IMBA

    SAPO去中心化训练:多节点协作让LLM训练效率提升94%

    大规模语言模型的后训练一直是个让人头疼的事情——要么资源不够,要么效率太低。SAPO提出了一种去中心化的异步RL方案,让各个计算节点之间可以互相分享rollouts,避开了传统并行化训练的各种瓶颈。 训练流程看起来是这样的:每轮训练中,节点先采样一批任务,生成对应的rollouts,然后把其中一部分(连同元数据和标准答案)分享给整个网络。 在保持总训练样本数不变的前提下,他们测试了不同的本地/外部rollouts混合比例。 结果显示,4本地+4外部的配置效果最好,累计奖励最高,2/66/2的配置次之。 和基线相比,4/4配置的提升幅度达到94%,而且在各个训练轮次中都能保持更高的平均奖励。 但是过度依赖外部rollouts也会出问题。2/6的配置就出现了明显的震荡,性能反而下降了。 比如Qwen2.5(0.5B参数),在175轮训练后的表现明显超过单机训练。但对于Qwen3(0.6B参数)这样的大模型,改善就不太明显了。

    15010编辑于 2025-11-15
  • 来自专栏机器学习炼丹术

    LLM6 | The AI Revolution in Medicine:GPT 4

    6 第六章的标题是"So Much More: Math, Coding, and Logic",由Peter Lee撰写。 这对于像GPT-4这样的LLMs来说尤其如此,因为它们既没有被特别用于临床使用的训练,也没有被提供。 <<大型语言模型LLM与Visual>> LLM入门1 | 初见LLaMA | MetaAI LLM入门2 | 羊驼AIpaca | Stanford LLM入门3 | 基于cpu和hugging face 的LLaMA部署 LLM入门4 | Segment Anything | MetaAI LLM入门5 | SAM代码从入门到出门 | MetaAI <<其他>> 医学图像重建 | Radon变换,滤波反投影算法 数据结构与存储结构 小白学PyTorch | 8 实战之MNIST小试牛刀 小白学PyTorch | 7 最新版本torchvision.transforms常用API翻译与讲解 小白学PyTorch | 6

    37410编辑于 2023-09-01
  • 来自专栏DeepHub IMBA

    LUMOS:基于开源LLM的可训练的代理框架

    基于LLM的agent可以利用LLM对问题进行推理,制定解决问题的计划,然后利用各种工具执行复杂的任务。 LUMOS的训练 LUMOS最主要的一个特点是他像模型那样是可以训练的,训练过程包括以下步骤: 1、训练数据生成 先前的工作利用self - instruction来综合训练任务和输入,并根据其创建的任务直接生成真值任务输出 但是种方法可能不适合为训练代理生成高质量的注释。 所以LUMOS将llm被用作“风格转移”工具,将现有基准中的真值推理步骤转换为LUMOS公式中的预期格式。 有了这些参考,llm可以根据给定的动作接口总结高级子目标并合成相应的动作。为llm提供了如何从推理步骤中提取高级子目标并将其映射为相应行动的示例。最后将注释组织成响应输出。 在数学任务上,如GSM8K[3]和SVAMP[4],比2 - 4倍大的语言代理实现更好的性能 在A-OKVQA[5]和ScienceQA(IMG)[6]上的准确率优于基于GPT的代理和开源代理。

    74610编辑于 2024-04-15
  • 来自专栏自然语言处理

    LLM训练系列04】手把手教你Qlora微调

    QLoRA 是什么 QLoRA 是一种高效的模型微调方法,特别适合在资源有限的情况下对大型语言模型(LLM)进行微调。 相比于全参数微调(fine-tuning),LoRA 只需要训练少量的额外参数(低秩矩阵),而不是整个模型的参数。 这种方法不仅节省了内存和计算资源,还能显著加快训练速度。 加速训练: 由于只需要训练少量的低秩矩阵,而不是整个模型的参数,训练速度会显著加快。 (即在训练过程中会被更新的),以及有多少参数是不可训练的(即在训练过程中保持不变的)。 AutoTokenizer.from_pretrained(model_name) prompt = "帮我重新润色下面这段文章:“中美贸易战主要影响因素分析与展望”,作者:高雪松,来源:《国际商务》2019年第6

    61010编辑于 2024-12-21
  • 来自专栏PyVision

    高效 PyTorch:6训练Tips

    高效 PyTorch系列之二来了,6个建议,让你的训练更快,更稳,更强。高效 PyTorch系列之二来了,6个建议,让你的训练更快,更稳,更强。 高效 PyTorch系列之二来了,6个建议,让你的训练更快,更稳,更强。 高效 PyTorch系列之二来了,6个建议,让你的训练更快,更稳,更强。 建议1 — 利用 PyTorch 生态中的高级训练框架 从头开始写训练循环的话, PyTorch 提供了极好的灵活性和自由度。理论上,这为编写任何训练逻辑提供了无限的可能性。 建议2ー在训练过程中查看额外的度量 几乎每一个快速上手的图像分类示例项目都有一个共同点,那就是它们在训练期间和训练后都报告了一组最小的度量。 建议6ー在训练过程中使用torch.autograd.detect_anomaly()来发现算术异常 如果你在训练期间看到任何的 NaNs 或 Inf 的损失/度量,一个警报应该在你的头脑中响起。

    93320发布于 2020-09-03
领券