首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CNN

    【Ubuntu】Tensorflow对训练的模型做8位(uint8)量化转换

    tensorflow_gpu-1.3.0 2.7、3.3-3.6 GCC 4.8 Bazel 0.4.5 6 8 tensorflow_gpu-1.2.0 2.7、3.3-3.6 GCC 4.8 Bazel 0.4.5 5.1 8 tensorflow_gpu-1.1.0 2.7、3.3-3.6 GCC 4.8 Bazel 0.4.2 5.1 8 tensorflow_gpu-1.0.0 2.7、3.3- jdk 安装过程中如果有以下异常: bazel depends on google-jdk | java8-jdk | java8-sdk | oracle-java8-installer; however Package java8-jdk is not installed. Package java8-sdk is not installed. Package oracle-java8-installer is not installed.

    2K30发布于 2019-10-22
  • 来自专栏Python与算法之美

    8,模型的训练

    一,分类模型的训练 ? ? ? ? ? ? ? ? ? 二,回归模型的训练 ? ? ? ? ? ? ? ? 三,聚类模型的训练 KMeans算法的基本思想如下: 随机选择K个点作为初始质心 While 簇发生变化或小于最大迭代次数: 将每个点指派到最近的质心,形成K个簇 重新计算每个簇的质心 ? 四,降维模型的训练 PCA主成分分析(Principal Components Analysis)是最常使用的降维算法,其基本思想如下: 将原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合 五,管道Pipeline的训练 使用管道可以减少训练步骤 有时候,我们可以用管道Pipeline把多个估计器estimater串联起来一次性训练数据。

    82031发布于 2020-07-17
  • 来自专栏一点人工一点智能

    全景解读 LLM 训练技术

    原文地址:https://zhuanlan.zhihu.com/p/30201040247 引言:从预训练训练 2023 年,当 ChatGPT 惊艳世界时,很多人第一次意识到:原来 AI 不仅能背课文 这些聪明表现的背后,得益于大语言模型(LLM)的两个关键训练阶段:预训练(Pretraining)和训练(Post-training)。 ,我们沿用上述原论文给出的分类视角(taxonomy),从「微调」、「强化学习」、「测试时拓展」三个类别去认识各种训练技术。 更新的权重矩阵为: 由于r远小于d和k,因此 LoRA 只需要训练很少的参数,就可以达到与全参数微调相近的性能。 实践指南:如何选择训练方案 6.1 决策流程图 6.2 工具链推荐

    70610编辑于 2025-03-20
  • 来自专栏机器之心

    训练时代如何延续Scaling Law?这是你该读的LLM训练综述

    机器之心报道 编辑:Panda 现如今,微调和强化学习等训练技术已经成为提升 LLM 能力的重要关键。 LLM 的训练过程大致可分为两个阶段:预训练训练。 预训练阶段通常依赖在大规模语料库上的下一 token 预测目标,训练阶段通常则包括多轮微调和对齐。 通过这些目标明确的训练技术,LLM 可以更好地与人类意图和道德伦理要求对齐,最终提高其在现实世界中的适用性。下面总结了关键的训练阶段。 LLM 中的监督微调 如图 2 所示,微调是 LLM 训练配方的基本组成部分。 LLM 训练评估基准 为了评估 LLM 训练阶段的表现,人们已经提出了很多涉及多个领域的基准: 推理 强化学习对齐 多语言评估 通用理解 对话和搜索 结构良好的评估框架可确保全面了解 LLM 在各种任务中的优势和局限性

    56200编辑于 2025-05-02
  • 来自专栏AI科技评论

    训练性能反而变差,自训练要取代预训练了吗?

    训练适用不同规模数据集和不同强度增强数据的训练; 3、自训练并且可以看作对预训练的补充,联合预训练和自训练可以获得更大的增益。 如果自训练优于预训练(暂做这样的假设),那它在多大的程度上比预训练好? 在什么情况下自训练比预训练更好? 自训练的灵活性和可扩展性如何? 我的看法:在ImageNet上训练的大多数模型都没有使用很高强度的增强方法。高强度增强数据,模型可能无法正确收敛。实际上,模型有时可能会对增强过拟合,当然这还需要进行适当的细节研究。 3、自监督预训练 vs 自训练 有监督的 ImageNet预训练会损害最大规模数据集和高强度数据增强下的训练效果。但是自监督的预训练呢? 预训练的加速范围是1.3倍至8倍,具体取决于预训练模型的质量、数据增强的强度和数据集的大小。 自训练并不能完全替代迁移学习和微调,这两种技术将来也会被大量使用。

    1.4K10发布于 2020-07-23
  • 来自专栏自然语言处理

    推理大模型的训练增强技术-预训练

    大模型训练技术概述 LLM训练的三个阶段 训练大型语言模型不是一个单一的过程,相反,它是一个多层的训练过程组合,每个过程都有其独特的作用,并对模型的性能做出贡献。 大模型预训练技术 大模型预训练简介 预训练是指在模型的初始阶段,使用大量数据对模型进行训练,以便让模型学习到通用的特征和知识。这些特征和知识可以是语言模型中的词嵌入,或者是图像识别模型中的视觉模式。 支持预训练训练、英语、中文等场景中的数据分析、清洗和合成。 支持数据模型协同开发,通过沙盒实验室实现快速迭代,提供反馈循环、可视化等功能,让您更好地理解和改进数据和模型。 现有的研究证明,预训练数据的数量和质量都对训练效果具有重大影响。 在获取充足的预训练数据,数据质量直接决定了模型的实际性能。通过提升数据质量,语言模型就能展现出与更大规模模型相匹敌甚至更为优异的性能。

    1.1K10编辑于 2025-03-08
  • 来自专栏模型压缩

    INT8量化训练

    【导读】本文聊了两篇做INT8量化训练的文章,量化训练说的与quantization-aware Training有区别,量化训练指的是在模型训练的前向传播和后向传播都有INT8量化。 Pytorch实现卷积神经网络训练量化(QAT) 一、Distribution Adaptive INT8 文章的核心idea是:Unified INT8发现梯度的分布不遵从一个分布即不能像权重一样归于高斯分布 ,Distribution Adaptive INT8认为梯度可以channel-wise看,分成两种分布,一个高斯分布,一个是倒T形分布,这样去minimize量化梯度与原来梯度的量化误差Error Unified INT8也是类似minimize量化梯度与原来梯度的量化误差Error的思想,与Distribution Adaptive INT8不同的是通过收敛性分析方程,发现可以通过降低学习率和减少梯度量化误差 Unified INT8也是类似minimize量化梯度与原来梯度的量化误差Error的思想,Unified INT8是通过收敛性分析方程,发现了可以通过降低学习率和减少梯度量化误差。

    1.6K00发布于 2021-06-06
  • 来自专栏GiantPandaCV

    INT8量化训练

    【GiantPandaCV导读】本文聊了两篇做INT8量化训练的文章,量化训练说的与quantization-aware Training有区别,量化训练指的是在模型训练的前向传播和后向传播都有INT8 Pytorch实现卷积神经网络训练量化(QAT) 一、Distribution Adaptive INT8 ? ,一个高斯分布,一个是倒T形分布,这样去minimize量化梯度与原来梯度的量化误差Error,就可以了。 Unified INT8也是类似minimize量化梯度与原来梯度的量化误差Error的思想,与Distribution Adaptive INT8不同的是通过收敛性分析方程,发现可以通过降低学习率和减少梯度量化误差 Unified INT8也是类似minimize量化梯度与原来梯度的量化误差Error的思想,Unified INT8是通过收敛性分析方程,发现了可以通过降低学习率和减少梯度量化误差。

    1.4K30发布于 2021-04-30
  • 来自专栏AI系统

    【AI系统】训练量化与部署

    本文将会重点介绍训练量化技术的两种方式:动态和静态方法,将模型权重和激活从浮点数转换为整数,以减少模型大小和加速推理。并以 KL 散度作为例子讲解校准方法和量化粒度控制来平衡模型精度和性能。 训练量化的方式 训练量化的方式主要分为动态和静态两种。 其核心是计算量化比例因子,使用静态量化的模型进行预测,在此过程中量化模型的缩放因子会根据输入数据的分布进行调整。相比量化训练,静态离线量化不需要重新训练,可以快速得到量化模型。 静态离线量化的步骤如下: 加载预训练的 FP32 模型,配置用于校准的数据加载器; 读取小批量样本数据,执行模型的前向推理,保存更新待量化算子的量化 scale 等信息; 将 FP32 模型转成 INT8 训练量化的技巧 对权重使用每通道(per-channel)粒度,对激活使用每张量(per-tensor)粒度 权重张量在不同通道中的值分布差异很大,如果使用单一的缩放因子进行量化,可能会导致较大的精度损失

    1.2K10编辑于 2024-12-06
  • 来自专栏Python编程 pyqt matplotlib

    模型训练 预测 numpy图片

    神经网络训练,预测若干张图片(实际上是numpy 数组),可将numpy 数组转换成 size 为 (batch,channels, height, width), 类型为float 的 tersor ,直接预测。 注意要手动将数据归一化,mean值和标准差 与 训练集的 transforms 的归一化参数一致。

    51730编辑于 2022-11-18
  • 来自专栏AI异构

    ​AdaRound:训练量化的自适应舍入

    本文提出了 AdaRound,一种用于训练量化的更好的权重舍入机制,它可以适应数据和任务损失。AdaRound 速度很快,不需要对网络进行微调,仅需要少量未标记的数据。 AdaRound 不仅比舍入取整有显著的提升,而且还为几种网络和任务上的训练量化建立了新的最新技术。 这意味着在进行训练量化时,通过仔细舍入权重,可以获得很多收益。本文的其余部分旨在设计一种有充分根据和计算效率的舍入机制。 ? 随机舍入与四舍五入对比 方法 在本节中,提出AdaRound,这是一种用于训练量化的新舍入程序,在理论上是有充分根据的,并且在实践中显示出显着的性能改进。本文从理论上分析由于量化引起的损失。 这将导致: 注意,在公式(8)中表示的 的近似值不是对角线。将公式(8)插入方程中以找到优化损失(5)的舍入向量,得到: 其中(8)中的优化问题,现在分解为(9)中的独立子问题。

    2.8K11发布于 2021-03-09
  • 来自专栏算法工程师的学习日志

    Python基础训练100题-8

    程序分析: 首先判断此数是否大于最后一个数,然后再考虑插入中间的数的情况,插入此元素之后的数,依次后移一个位置。

    32410编辑于 2022-07-27
  • 来自专栏DeepHub IMBA

    使用FP8加速PyTorch训练

    在这篇文章中,我们将介绍如何修改PyTorch训练脚本,利用Nvidia H100 GPU的FP8数据类型的内置支持。 这里主要介绍由Transformer Engine库公开的fp8特定的PyTorch API,并展示如何将它们集成到一个简单的训练脚本中。 (我们这里只介绍如何使用FP8,不会介绍FP8具体的理论知识) 随着人工智能模型变得越来越复杂,训练它们所需的机器也越来越复杂。Nvidia H100 GPU据称支持“前所未有的性能和可扩展性”。 总结 在这篇文章中,我们演示了如何编写PyTorch训练脚本来使用8位浮点类型。展示了FP8的使用是如何从Nvidia H100中获得最佳性能的关键因素。 FP8的可行性及其对训练性能的影响可以根据模型的细节而变化很大。 作者:Chaim Rand 喜欢就关注一下吧: 点个 在看 你最好看!

    98340编辑于 2023-11-20
  • 来自专栏饶文津的专栏

    「2017 Multi-University Training Contest 8」2017多校训练8

    朱刘算法中不能记录路径,其中的fa[i]对应缩点的下标。不过没关系,父节点非常好求,就是答案对1000取模。

    33410发布于 2020-06-02
  • 来自专栏Python与算法之美

    YOLOv8 训练自己的数据集

    本范例我们使用 ultralytics中的YOLOv8目标检测模型训练自己的数据集,从而能够检测气球。 #安装 ! =10) 2,使用torchkeras梦中情炉 尽管使用ultralytics原生接口非常简单,再使用torchkeras实现自定义训练逻辑似乎有些多此一举。 并且,torchkeras在可视化上会比ultralytics的原生训练代码优雅许多。 此外,掌握自定义训练逻辑对大家熟悉ultralytics这个库的代码结构也会有所帮助。 wandb = False, quiet = True ) 四,评估模型 为了便于评估 map等指标,我们将权重再次保存, 用ultralytics的原生YOLO接口进行加载评估。

    3.8K31编辑于 2023-09-05
  • 来自专栏深度学习自然语言处理

    NLP的12种BERT预训练方法

    CMLM 8. ELECTRA 9. SpanBERT 10. ALBERT 11. MT-DNN 12. XLENET 1. 构造多个无监督任务来学习词法、句法和语义的信息;且通过增量的方式进行多任务学习,引入新任务,并不是只使用新的任务来训练,而是通过多任务学习同时学习之前的任务和新增加的任务,这样既要学习新的信息的同时也不能忘记老的信息 预训练了一个微调可以同时用于自然语言理解和自然语言生成的下游任务模型,核心框架transformer,预训练和目标结合了以下三个: 单向语言模型(同ELMO/GPT),在做attention时只能mask 用预训练的模型初始化翻译模型得到的编码器和解码器,进行无监督机器翻译模型的训练8. 试图解决大部分预训练模型训练成本高,参数量巨大的问题。

    1.4K10发布于 2020-02-24
  • 【大模型训练专题】 LoRA微调原理及实现

    LoRA 原理及实现前言✍ 在大模型训练这条线里,大模型的参数量往往是几十亿、上百亿。 了解了为什么可以这么做,我们来看一下LoRA在实际工程中是怎么实现的, 以 Transformer 里最常见的线性层为例:原始权重矩阵:W_0 \in \mathbb{R}^{d_{\text{out = 2 * r Q4:你是如何选择r和alpha的① 默认选 r=8, alpha=8~16,基本不会太离谱。 2.2 LoRA Dropout在很多工程实现中,LoRA 会在A x 加一个 dropout,例如:h_{\text{out}} = W_0 x + \frac{\alpha}{r} B(\text Trainertrainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, # 预处理的数据

    2.2K31编辑于 2025-11-27
  • 来自专栏Goboy

    从零开始训练文生图大模型完全指南

    二、核心概念深度解析2.1预训练训练的本质区别要理解训练的价值,我们首先需要了解预训练模型的本质。 三、训练技术全景图训练技术经过近两年的快速发展,已经形成了一个丰富的技术生态。不同的技术适用于不同的场景,选择正确的技术路线是成功的关键。 下表详细列出了不同训练方法的硬件需求:训练方法最低显存推荐显存示例GPU预计训练时间LoRA(SD1.5)6GB8GB+RTX30602-4小时LoRA(SDXL)8GB12GB+RTX30804-8小时 (FP16/BF16):使用半精度浮点数8bit优化器:如bitsandbytes的AdamW8bit梯度累积:减小批量大小,累积多步梯度4.2软件环境搭建一个稳定的软件环境是训练成功的保障。 五、选择基础模型选择合适的基础模型是训练的第一个重要决策。

    1K22编辑于 2026-01-08
  • 来自专栏AI小白入门

    【NLP】NLP的12种BERT预训练方法

    CMLM 8. ELECTRA 9. SpanBERT 10. ALBERT 11. MT-DNN 12. XLENET 1. 构造多个无监督任务来学习词法、句法和语义的信息;且通过增量的方式进行多任务学习,引入新任务,并不是只使用新的任务来训练,而是通过多任务学习同时学习之前的任务和新增加的任务,这样既要学习新的信息的同时也不能忘记老的信息 预训练了一个微调可以同时用于自然语言理解和自然语言生成的下游任务模型,核心框架transformer,预训练和目标结合了以下三个: 单向语言模型(同ELMO/GPT),在做attention时只能mask 用预训练的模型初始化翻译模型得到的编码器和解码器,进行无监督机器翻译模型的训练8. 试图解决大部分预训练模型训练成本高,参数量巨大的问题。

    1.1K10发布于 2020-02-24
  • 来自专栏面经

    【大模型训练专题】 QLoRA微调原理及实战项目

    工业界真实场景里依然存在着两个很常见的问题:显存实在不够,8B / 14B 模型都快撑不住了,LoRA微调依然爆显存,如何进一步解决? 训练时:前向:用低比特 W_0 参与计算 + LoRA 分支的浮点增量;反向:只对 LoRA 权重(A、B)求梯度,W_0 不更新。 1.1 QLoRA 和普通 LoRA 的本质区别是什么? QLoRA 证明了:在大规模 LLM 上,用 NF4 这种 4bit 格式 + Double Quantization + PagedOptimizer,再配合 LoRA,只训练低秩增量,就可以在几乎不掉点的前提下 4bit_use_double_quant=True, # double quantization bnb_4bit_quant_type="nf4", # NF4 或 FP4)# 2) 加载量化的基座模型 train_dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=4, collate_fn=collate_fn,)训练代码

    1.1K31编辑于 2025-12-10
领券