首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏一点人工一点智能

    全景解读 LLM 训练技术

    原文地址:https://zhuanlan.zhihu.com/p/30201040247 引言:从预训练训练 2023 年,当 ChatGPT 惊艳世界时,很多人第一次意识到:原来 AI 不仅能背课文 这些聪明表现的背后,得益于大语言模型(LLM)的两个关键训练阶段:预训练(Pretraining)和训练(Post-training)。 ,我们沿用上述原论文给出的分类视角(taxonomy),从「微调」、「强化学习」、「测试时拓展」三个类别去认识各种训练技术。 更新的权重矩阵为: 由于r远小于d和k,因此 LoRA 只需要训练很少的参数,就可以达到与全参数微调相近的性能。 实践指南:如何选择训练方案 6.1 决策流程图 6.2 工具链推荐

    70610编辑于 2025-03-20
  • 来自专栏机器之心

    训练时代如何延续Scaling Law?这是你该读的LLM训练综述

    机器之心报道 编辑:Panda 现如今,微调和强化学习等训练技术已经成为提升 LLM 能力的重要关键。 LLM 的训练过程大致可分为两个阶段:预训练训练。 预训练阶段通常依赖在大规模语料库上的下一 token 预测目标,训练阶段通常则包括多轮微调和对齐。 通过这些目标明确的训练技术,LLM 可以更好地与人类意图和道德伦理要求对齐,最终提高其在现实世界中的适用性。下面总结了关键的训练阶段。 LLM 中的监督微调 如图 2 所示,微调是 LLM 训练配方的基本组成部分。 LLM 训练评估基准 为了评估 LLM 训练阶段的表现,人们已经提出了很多涉及多个领域的基准: 推理 强化学习对齐 多语言评估 通用理解 对话和搜索 结构良好的评估框架可确保全面了解 LLM 在各种任务中的优势和局限性

    56200编辑于 2025-05-02
  • 来自专栏算法工程师的学习日志

    Python基础训练100题-9

    X = [[12,7,3], [4 ,5,6], [7 ,8,9]] Y = [[5,8,1], [6,7,3], [4,5,9]] res=[[0,0,0],

    34030编辑于 2022-07-27
  • 来自专栏AI科技评论

    训练性能反而变差,自训练要取代预训练了吗?

    训练适用不同规模数据集和不同强度增强数据的训练; 3、自训练并且可以看作对预训练的补充,联合预训练和自训练可以获得更大的增益。 如果自训练优于预训练(暂做这样的假设),那它在多大的程度上比预训练好? 在什么情况下自训练比预训练更好? 自训练的灵活性和可扩展性如何? 图像的分辨率保持在640 x 640,金字塔等级为P3到P7,每个像素使用9个锚点。 2)语义分割:使用 PASCAL VOC 2012分割训练集(1500张图片)进行监督学习下的语义分割训练。 我的看法:在ImageNet上训练的大多数模型都没有使用很高强度的增强方法。高强度增强数据,模型可能无法正确收敛。实际上,模型有时可能会对增强过拟合,当然这还需要进行适当的细节研究。 3、自监督预训练 vs 自训练 有监督的 ImageNet预训练会损害最大规模数据集和高强度数据增强下的训练效果。但是自监督的预训练呢?

    1.4K10发布于 2020-07-23
  • 来自专栏自然语言处理

    推理大模型的训练增强技术-预训练

    大模型训练技术概述 LLM训练的三个阶段 训练大型语言模型不是一个单一的过程,相反,它是一个多层的训练过程组合,每个过程都有其独特的作用,并对模型的性能做出贡献。 大模型预训练技术 大模型预训练简介 预训练是指在模型的初始阶段,使用大量数据对模型进行训练,以便让模型学习到通用的特征和知识。这些特征和知识可以是语言模型中的词嵌入,或者是图像识别模型中的视觉模式。 支持预训练训练、英语、中文等场景中的数据分析、清洗和合成。 支持数据模型协同开发,通过沙盒实验室实现快速迭代,提供反馈循环、可视化等功能,让您更好地理解和改进数据和模型。 现有的研究证明,预训练数据的数量和质量都对训练效果具有重大影响。 在获取充足的预训练数据,数据质量直接决定了模型的实际性能。通过提升数据质量,语言模型就能展现出与更大规模模型相匹敌甚至更为优异的性能。

    1.1K10编辑于 2025-03-08
  • 来自专栏AI系统

    【AI系统】训练量化与部署

    本文将会重点介绍训练量化技术的两种方式:动态和静态方法,将模型权重和激活从浮点数转换为整数,以减少模型大小和加速推理。并以 KL 散度作为例子讲解校准方法和量化粒度控制来平衡模型精度和性能。 训练量化的方式 训练量化的方式主要分为动态和静态两种。 其核心是计算量化比例因子,使用静态量化的模型进行预测,在此过程中量化模型的缩放因子会根据输入数据的分布进行调整。相比量化训练,静态离线量化不需要重新训练,可以快速得到量化模型。 目的就是改变量化域,实则就是改变真实的分布,并使得修改得真实分布在量化与量化前相对熵越小越好。 训练量化的技巧 对权重使用每通道(per-channel)粒度,对激活使用每张量(per-tensor)粒度 权重张量在不同通道中的值分布差异很大,如果使用单一的缩放因子进行量化,可能会导致较大的精度损失

    1.2K10编辑于 2024-12-06
  • 来自专栏Python编程 pyqt matplotlib

    模型训练 预测 numpy图片

    神经网络训练,预测若干张图片(实际上是numpy 数组),可将numpy 数组转换成 size 为 (batch,channels, height, width), 类型为float 的 tersor ,直接预测。 注意要手动将数据归一化,mean值和标准差 与 训练集的 transforms 的归一化参数一致。

    51730编辑于 2022-11-18
  • 来自专栏深度学习和计算机视觉

    加速 PyTorch 模型训练9 个技巧

    [1_CER3v8cok2UOBNsmnBrzPQ](9 Tips For Training Lightning-Fast Neural Networks In Pytorch.assets/1_CER3v8cok2UOBNsmnBrzPQ.gif 单个GPU训练 一旦你已经完成了前面的步骤,是时候进入GPU训练了。在GPU上的训练将使多个GPU cores之间的数学计算并行化。你得到的加速取决于你所使用的GPU类型。 方法来进行多GPU训练。 分batch训练 A) 拷贝模型到每个GPU中,B) 给每个GPU一部分batch 第一种方法被称为“分batch训练”。 9. 多节点GPU训练 每台机器上的每个GPU都有一个模型的副本。每台机器获得数据的一部分,并且只在那部分上训练。每台机器都能同步梯度。 英文原文:https://towardsdatascience.com/9-tips-for-training-lightning-fast-neural-networks-in-pytorch-8e63a502f565‍‍‍

    1.2K20编辑于 2022-02-09
  • 来自专栏AI异构

    ​AdaRound:训练量化的自适应舍入

    本文提出了 AdaRound,一种用于训练量化的更好的权重舍入机制,它可以适应数据和任务损失。AdaRound 速度很快,不需要对网络进行微调,仅需要少量未标记的数据。 AdaRound 不仅比舍入取整有显著的提升,而且还为几种网络和任务上的训练量化建立了新的最新技术。 在全面的研究中,表明 AdaRound 为几个网络和任务(包括 ResNet18,ResNet50,MobilenetV2,InceptionV3 和 DeeplabV3)提供了最新的训练量化新技术。 这意味着在进行训练量化时,通过仔细舍入权重,可以获得很多收益。本文的其余部分旨在设计一种有充分根据和计算效率的舍入机制。 ? 随机舍入与四舍五入对比 方法 在本节中,提出AdaRound,这是一种用于训练量化的新舍入程序,在理论上是有充分根据的,并且在实践中显示出显着的性能改进。本文从理论上分析由于量化引起的损失。

    2.8K11发布于 2021-03-09
  • 来自专栏数据科学(冷冻工厂)

    提高CV模型训练性能的9个技巧

    长话短说: 训练模型尺寸:小 保存权重并在更大的图像尺寸上重新训练模型 再次保存权重并重新训练最终图像大小 这个过程将会获得更快的收敛和更好的性能。 6. 热身 从论文 Bag of Tricks[9]中,使用 LR 预热是亮点之一: 当你开始训练一个模型时,它具有更多的“随机性”,因为它刚刚开始学习特征,因此首先从较小的 learning_rate 开始允许它选择细节 ,然后你可以在“预热”将其增加到预期的schedule。 9. 图像增强 NNs 受益于更多数据。图像中的微小变化确实可以帮助模型提高对图像内部特征的理解。使用正确的图像增强可以真正帮助您的模型。 how-to-modify-a-conv2d-to-depthwise-separable-convolution/15843/4 [8] 学习率: https://forums.fast.ai/t/fine-tune-vs-fit-one-cycle/66029 [9]

    71920编辑于 2023-02-27
  • 来自专栏数据科学(冷冻工厂)

    提高CV模型训练性能的 9 个技巧

    数据集从数据子集开始:您应该从少量的数据集或示例开始,并在那里验证您的训练模型。 例如:训练 10 个 classes,检查它是否提高了 CV -> 提交扩展到 20 个classes,检查 CV,然后再次提交如果一切顺利,就在完整数据集上进行训练。3. 长话短说:训练模型尺寸:小保存权重并在更大的图像尺寸上重新训练模型再次保存权重并重新训练最终图像大小这个过程将会获得更快的收敛和更好的性能。6. ,然后你可以在“预热”将其增加到预期的schedule。 9. 图像增强NNs 受益于更多数据。图像中的微小变化确实可以帮助模型提高对图像内部特征的理解。使用正确的图像增强可以真正帮助您的模型。此外,在训练模型时可视化结果,以确保它们了解的是特征而不是背景!

    82320编辑于 2023-01-19
  • 来自专栏深度学习自然语言处理

    NLP的12种BERT预训练方法

    ELECTRA 9. SpanBERT 10. ALBERT 11. MT-DNN 12. XLENET 1. 构造多个无监督任务来学习词法、句法和语义的信息;且通过增量的方式进行多任务学习,引入新任务,并不是只使用新的任务来训练,而是通过多任务学习同时学习之前的任务和新增加的任务,这样既要学习新的信息的同时也不能忘记老的信息 预训练了一个微调可以同时用于自然语言理解和自然语言生成的下游任务模型,核心框架transformer,预训练和目标结合了以下三个: 单向语言模型(同ELMO/GPT),在做attention时只能mask 生成器的训练目标还是MLM(作者在后文也验证了这种方法更好),判别器的目标是序列标注(判断每个token是真是假),两者同时训练,但判别器的梯度不会传给生成器。 9. 试图解决大部分预训练模型训练成本高,参数量巨大的问题。

    1.4K10发布于 2020-02-24
  • 【大模型训练专题】 LoRA微调原理及实现

    LoRA 原理及实现前言✍ 在大模型训练这条线里,大模型的参数量往往是几十亿、上百亿。 而在前言我们也提到过,LoRA的核心想法:不需要所有的参数同时训练,冻结原始参数,只训练一个小的 ΔW。 Q1:为什么可以直接通过一个低秩矩阵训练就可以达到好的效果? 了解了为什么可以这么做,我们来看一下LoRA在实际工程中是怎么实现的, 以 Transformer 里最常见的线性层为例:原始权重矩阵:W_0 \in \mathbb{R}^{d_{\text{out 2.2 LoRA Dropout在很多工程实现中,LoRA 会在A x 加一个 dropout,例如:h_{\text{out}} = W_0 x + \frac{\alpha}{r} B(\text Trainertrainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, # 预处理的数据

    2.2K31编辑于 2025-11-27
  • 来自专栏罗西的思考

    深度学习分布式训练框架 horovod (9) --- 启动 on spark

    [源码解析] 深度学习分布式训练框架 horovod (9) --- 启动 on spark 目录 [源码解析] 深度学习分布式训练框架 horovod (9) --- 启动 on spark 0x00 本系列其他文章如下: [源码解析] 深度学习分布式训练框架 Horovod (1) --- 基础知识 [源码解析] 深度学习分布式训练框架 horovod (2) --- 从使用者角度切入 [源码解析] 深度学习分布式训练框架 horovod (3) --- Horovodrun背后做了什么 [源码解析] 深度学习分布式训练框架 horovod (4) --- 网络基础 & Driver [源码解析] 深度学习分布式训练框架 horovod (5) --- 融合框架 [源码解析] 深度学习分布式训练框架 horovod (6) --- 后台线程架构 [源码解析] 深度学习分布式训练框架 horovod 其实,这一步也就意味着 spark exector 自己本身的逻辑任务结束了,因为以后都是 SparkTaskService 自己独立完成的动作,它来负责训练代码的启动。

    65720发布于 2021-07-08
  • 来自专栏深度学习技术前沿

    9个技巧让你的PyTorch模型训练变得飞快!

    [1_CER3v8cok2UOBNsmnBrzPQ](9 Tips For Training Lightning-Fast Neural Networks In Pytorch.assets/1_CER3v8cok2UOBNsmnBrzPQ.gif 单个GPU训练 ? 一旦你已经完成了前面的步骤,是时候进入GPU训练了。在GPU上的训练将使多个GPU cores之间的数学计算并行化。你得到的加速取决于你所使用的GPU类型。 方法来进行多GPU训练。 分batch训练 ? A) 拷贝模型到每个GPU中,B) 给每个GPU一部分batch 第一种方法被称为“分batch训练”。 9. 多节点GPU训练 ? 每台机器上的每个GPU都有一个模型的副本。每台机器获得数据的一部分,并且只在那部分上训练。每台机器都能同步梯度。 —END— 英文原文:https://towardsdatascience.com/9-tips-for-training-lightning-fast-neural-networks-in-pytorch

    1.4K51发布于 2020-11-20
  • 来自专栏对白的算法屋

    用 Pytorch 训练快速神经网络的 9 个技巧

    估计你还在用32位精度或GASP(一般活动仿真语言) 训练,甚至可能只在单GPU上训练。如果市面上有99个加速指南,但你可能只看过1个?(没错,就是这样)。 单GPU训练 一旦完成了前面的步骤,就可以进入GPU训练了。GPU的训练将对许多GPU核心上的数学计算进行并行处理。能加速多少取决于使用的GPU类型。 大多数模型都是用32位精度数进行训练的。然而最近的研究发现,使用16位精度,模型也可以很好地工作。混合精度指的是,用16位训练一些特定的模型,而权值类的用32位训练。 方式训练多GPU。 分批量训练 A)在每个GPU上复制模型;B)给每个GPU分配一部分批量。 第一种方法叫做分批量训练。这一策略将模型复制到每个GPU上,而每个GPU会分到该批量的一部分。 9. 多节点GPU训练 每台机器上的各GPU都可获取一份模型的副本。每台机器分得一部分数据,并仅针对该部分数据进行训练。各机器彼此同步梯度。

    1.1K40编辑于 2022-04-01
  • 来自专栏AI

    【转】Claude Code 安装必做的 9 项设置

    因此切换风格需要开新会话才能生效。2. 设成 claude-sonnet-4-6 ,这些后台任务会改走 Sonnet 执行。 9. 安装关键 Skills#我每天用 Claude Code 写技术文章,流程是固定的:读素材、按大纲写初稿、排版成公众号格式。 GitHub #10077)Claude 生成的清理命令尾部带了 ~/,整个主目录被清除(Hacker News 197 分)eesel AI 统计:使用该标志的开发者中 32% 遇到过意外文件修改,9% 总结:9 项设置优先级#优先级设置一句话说明必做Output Style → Explanatory回复从”太简短”到”有解释”必做CLAUDE.md 全局指令告诉 AI 你的偏好,不再每次重复必做终端基础配置

    1.2K20编辑于 2026-03-29
  • 来自专栏Goboy

    从零开始训练文生图大模型完全指南

    当我们谈论"训练自己的文生图模型"时,实际上存在两条截然不同的路径:预训练(Pre-training)和训练(Post-training)。 二、核心概念深度解析2.1预训练训练的本质区别要理解训练的价值,我们首先需要了解预训练模型的本质。 三、训练技术全景图训练技术经过近两年的快速发展,已经形成了一个丰富的技术生态。不同的技术适用于不同的场景,选择正确的技术路线是成功的关键。 型号:{torch.cuda.get_device_name(0)}")print(f"显存大小:{torch.cuda.get_device_properties(0).total_memory/1e9: 五、选择基础模型选择合适的基础模型是训练的第一个重要决策。

    1K22编辑于 2026-01-08
  • 来自专栏AI小白入门

    【NLP】NLP的12种BERT预训练方法

    ELECTRA 9. SpanBERT 10. ALBERT 11. MT-DNN 12. XLENET 1. 构造多个无监督任务来学习词法、句法和语义的信息;且通过增量的方式进行多任务学习,引入新任务,并不是只使用新的任务来训练,而是通过多任务学习同时学习之前的任务和新增加的任务,这样既要学习新的信息的同时也不能忘记老的信息 预训练了一个微调可以同时用于自然语言理解和自然语言生成的下游任务模型,核心框架transformer,预训练和目标结合了以下三个: 单向语言模型(同ELMO/GPT),在做attention时只能mask 生成器的训练目标还是MLM(作者在后文也验证了这种方法更好),判别器的目标是序列标注(判断每个token是真是假),两者同时训练,但判别器的梯度不会传给生成器。 9. 试图解决大部分预训练模型训练成本高,参数量巨大的问题。

    1.1K10发布于 2020-02-24
  • 来自专栏面经

    【大模型训练专题】 QLoRA微调原理及实战项目

    训练时:前向:用低比特 W_0 参与计算 + LoRA 分支的浮点增量;反向:只对 LoRA 权重(A、B)求梯度,W_0 不更新。 1.1 QLoRA 和普通 LoRA 的本质区别是什么? QLoRA 证明了:在大规模 LLM 上,用 NF4 这种 4bit 格式 + Double Quantization + PagedOptimizer,再配合 LoRA,只训练低秩增量,就可以在几乎不掉点的前提下 4bit_use_double_quant=True, # double quantization bnb_4bit_quant_type="nf4", # NF4 或 FP4)# 2) 加载量化的基座模型 train_dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=4, collate_fn=collate_fn,)训练代码

    1.1K31编辑于 2025-12-10
领券