首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型成长之路

    ​【模型学习 | 量化】pytorch量化基础知识(1)

    .支持INT8量化,可以降低4倍的模型大小以及显存需求,加速2-4倍的推理速度通俗理解:降低权重和激活值的精度(FP32→INT8),从而提高模型大小以及显存需求。 2.1 对称量化 & 非对称量化⚙️ 区别对称量化(Symmetric Quantization)非对称量化(Affine Quantization)特性 对称量化(Symmetric Quantization notePTQ 是直接对训练后的模型参数进行量化,因此适合于快速部署;QAT是通过插入伪量化节点,在训练过程中模拟量化误差以达到更高的精度,因此需要重新训练。 ⚙️ 区别特性 PTQ(训练后量化) QAT(量化感知训练) 训练阶段仅FP32训练 插入伪量化节点训练反向传播❌ 不支持 ✅ 通过STE支持 精度损失较大(尤其小模型)通常更小 __init__() self.linear = torch.nn.Linear(5, 10) def forward(self, x): return self.linear

    51210编辑于 2025-06-25
  • 来自专栏机器学习与统计学

    纯离线安装模型推理引擎,部署量化模型

    大家好,我是 Ai 学习的老章 继续介绍模型推理引擎+Llama.cpp,前文我写了# 内网部署 llama.cpp,运行量化模型,详细介绍了 llama.cpp 这个推理引擎,内网离线 cmake 本文我们用个更省事儿的内网离线部署方式——Docker,然后用其部署量化模型,其中踩坑若干,才有如此精炼、极简教程 1、联网环境拉取 llama.cpp 镜像并保存 选择镜像最好是官方,比如 llama.cpp server-cuda https://github.com/ggml-org/llama.cpp/blob/master/docs/docker.md 市面上有很多个人打包的镜像,大多都是阉割版 费老大劲搞进去,发现模型无法加载 /dir 再传入内网: llama.cpp 服务需要模型文件才能运行,在你的 Linux 服务器上创建一个目录,用来存放 GGUF 格式的模型文件。 5、启动模型 docker run --rm --runtime nvidia -e TZAsia/Shanghai --gpus "device=2" -v /opt/data/ai/GGUF:/models

    1.3K10编辑于 2025-10-11
  • 来自专栏大模型成长之路

    模型学习 | BERT 量化实战(1)】

    /logs", ) # 5. original_model = AutoModelForSequenceClassification.from_pretrained(model_name).to('cuda') # 2. 8-bit量化加载模型模型移到 CPU(Eager 模式量化推荐在 CPU 上执行) model.to('cpu') # 3. (存在bug) 目前的这种量化方式还有bug存在,并且还找不到错误,希望有大哥帮助一下,主要的问题是模型可以成功量化,但是量化后的模型推理时会报错误,而且量化结果的大小也很奇怪:Original BERT =True)) # 5.

    98710编辑于 2025-06-27
  • 来自专栏AI工程落地

    语言模型--KV Cache量化论文

    ,新阶段生成的添加到全精度组,当全精度组达到上限R个token,则按channel方向量化并与量化组合并,清空全精度组。 使用高精度 5.再反量化后增加了一个Qnorm算子 6.per vector检测异常值,并对异常值做特殊处理 GEAR: An Efficient KV Cache Compression Recipe 这类特定词元上的离群值会导致LLM将大量的自注意力得分分配到这些词元上 2.先使用全精度模型生成关键词元的无损KV cache并将其缓存下来(i.e., IntactKV),量化模型在推理时就能直接使用无损的关键词元表征 ,从而有效提升量化模型精度。 ,需要对key、value开发单独的量化方法 2.提出基于attention-aware的量化方法 3.对异常值做特殊处理,异常值做高比特量化

    1.7K10编辑于 2024-07-18
  • 来自专栏大模型成长之路

    模型学习 | BERT 量化实战(2) 】

    BERT 量化实战分析前言:在【模型学习 | 量化实战(1)】-腾讯云开发者社区-腾讯云中基于BERT实现了情感分析系统以及量化的实现,但是量化的结果导致了模型的精确度急剧下降,从90%降到了54%, 为此,在本章中,尽可能的分析导致量化模型精度下降的原因上期问题 在量化过程中,发现无法采用export量化,但是 Eager Mode 成功了, Eager Mode 只对线性层进行了量化,而没有对 量化分析方法为了进一步的优化量化模型,可以从以下方法进行分析: Calibration Range 分析 逐层敏感性分析 层级 fallback 到 FP32 误差传播分析 具体样本误差对比 Calibration )、分布近似 scale过大scale的计算如下所示:scale=\frac{max(w)-min(w)}{255} , 个别层的权重有离群值,会导致scale非常,严重丢失精度。 模型量化模型,输入相同的样本;逐层提取中间层输出;对每层输出计算误差(如 MSE、Cosine 距离等);画出误差随层数变化的曲线 → 看是否有层明显放大了误差;具体样本误差对比目标:某个具体输入

    78710编辑于 2025-06-27
  • 来自专栏Java技术进阶

    基于LMDeploy部署模型量化

    背景 模型具有庞大的参数量,内存开销,7B模型仅权重就需要14+G内存,采用自回归生成token,需要缓存Attention 的k/v带来巨大的内存开销;动态shape,请求参数不固定,Token逐个生成 列并行 行并行 简单来说,就是把一个的张量(参数)分到多张卡上,分别计算各部分的结果,然后再同步汇总。 场景二(第5张图):使用真实数据,测试吞吐量(request throughput)。 我想直接在自己的 Python 项目中使用模型功能。推荐使用 TurboMind推理 + Python(2.5)。 我想在自己的其他非 Python 项目中使用模型功能。 3 模型量化 本部分内容主要介绍如何对模型进行量化。主要包括 KV Cache 量化模型参数量化。总的来说,量化是一种以参数或计算中间结果精度下降换空间节省(以及同时带来的性能提升)的策略。

    2.5K00编辑于 2024-03-01
  • 来自专栏AI SPPECH

    54_模型优化:模型的压缩与量化

    本文将深入剖析模型压缩与量化的核心技术、最新进展及工程实践,探讨如何通过创新技术让模型在保持高性能的同时实现轻量化部署,为企业和开发者提供全面的技术指导。 计算资源消耗惊人 训练一个700亿参数的模型在FP16精度下需要1.4TB显存 据估计,OpenAI在2024年的亏损额达到50亿美元,2026年可能攀升至140亿美元 模型训练产生的碳排放相当于5辆汽车的终身排放 多教师蒸馏 使用多个教师模型共同指导一个学生模型 结合不同模型的优势和专长 提高学生模型的泛化能力和鲁棒性 5. GPTQ - 模型量化工具 针对大型语言模型量化方法 支持INT4/INT8精度量化 保持较高的生成质量 与流行的LLM框架兼容 2. 专用AI加速器 NVIDIA Hopper/BH100:新一代GPU架构,专为AI优化 Google TPU v5:提供更高的稀疏计算效率 寒武纪/昇腾:国产AI芯片在模型加速方面的突破 2.

    82210编辑于 2025-11-16
  • 来自专栏机器学习与统计学

    量化模型,本地部署,效果不打折

    大家好,我是 AI 学习的老章 Unsloth 出圈是 DeepSeek-R1 爆火的时候,它发布了最小 1.58 位量化版本的 R1,把 DeepSeek-R1 这个非常模型(它有 6710 亿个参数 5-bit Unsloth 动态 GGUF: 性能: 与 Claude-4-Opus(非思考模式)的性能相当。 ”: 将重要的层保留为 8 或 16-bit,非重要层则压缩至 1、2、3、4、5 或 6-bit。 结论 Unsloth 的动态量化技术证明,通过智能的、非均匀的量化策略,我们可以在大幅压缩模型体积的同时,保持甚至超越 SOTA 模型的性能。 对于追求本地化、低成本部署高性能模型的用户来说,Unsloth 的动态量化模型无疑是当前最值得关注的方案之一。

    53510编辑于 2025-11-29
  • 来自专栏机器学习、深度学习

    模型量化

    provides ∼ 32× memory savings and 40× faster convolutional operations TBN 的性能 比 XNOR-Network 要 高 5% 下图显示不同量化策略对速度的提升影响 ? 量化卷积过程 ? 加速策略: AND, XOR and bitcount operations 训练过程 ? 分类性能对比 ?

    88110发布于 2019-05-26
  • 来自专栏GiantPandaCV

    AffineQuant: 语言模型的仿射变换量化

    量化是一种有效的方法,通过将权重和激活映射到低比特表示来实现。 然而,量化经常会带来性能损失,尤其是在模型较小或使用低比特设置时。 因此,后训练量化(PTQ)成为了一种受到关注的策略,它允许在不进行模型重训练的情况下进行优化,但这需要巧妙地处理量化过程中的误差和信息损失。 方法 3.1 AffineQuant AffineQuant 是一种利用仿射变换来优化后训练量化(PTQ)的方法,它在大型语言模型(LLMs)中应用,以减少量化误差并保持模型性能。 这一策略为处理复杂数据集提供了一种有效的优化手段,值得在未来的模型训练中继续探索和应用。 5. 维持或提升量化后的模型性能: 如表格所示,即便在较低的位宽(例如4/4位量化)下,AffineQuant方法在多个性能指标上仍然优于或接近全精度模型的表现,显示出较好的量化抗性和模型鲁棒性。

    85510编辑于 2024-05-13
  • 来自专栏DeepHub IMBA

    语言模型量化方法对比:GPTQ、GGUF、AWQ

    分片 在我们进入量化策略之前,我们先介绍一个前置的方法:分片。通过分片可以将模型分割成小块,每个分片包含模型的较小部分,通过在不同设备上分配模型权重来解决GPU内存限制。 虽然它没有任何的压缩和量化,但是这种方法算是一个最简单的加载模型的方案。 比如Zephyr-7B-β,实际上已经分片了! 4GB的分片 量化 大型语言模型由一堆权重和激活表示。 预量化(GPTQ、AWQ、GGUF) 我们已经探索了分片和量化技术。但是量化是在每次加载模型时进行的,这是非常耗时的操作,有没有办法直接保存量化后的模型,并且在使用时直接加载呢? 但是如果你的GPU无法处理如此模型,那么从GPTQ开始切换到以cpu为中心的方法(如GGUF)是绝对值得的。

    12.9K71编辑于 2023-11-20
  • 来自专栏机器之心

    字节开源模型量化新思路,2-bit量化模型精度齐平fp16

    随着深度学习语言模型的越来越火爆,语言模型越做越大,使得其推理成本也水涨船高。模型量化,成为一个热门的研究课题。 背景 模型的迅速发展,使得推理成本越来越高。模型量化,作为一个降低推理成本的技术方案,得到了越来越多的关注与研究。然而,在传统的量化范式下,模型的精度在极低比特下会迅速下降。 我们将一个模型量化完毕以后,交付给下游引擎同学的时候,只需要知道 (3) 式中的 和 (s,z) 即可。 进一步挖掘 (3) 式中,我们可以将一个模型的参数,解耦 (decouple) 成整数部分 和浮点部分 (s,z)。 事实上,优化目标函数 (6) 与 (4) 是完全一致的, 就是反量化过程。 将一个量化问题转化为形如(5)式的数学优化问题,正是 decoupleQ 区别于传统量化论文的关键所在。

    1.2K10编辑于 2024-05-14
  • 来自专栏奇点大数据

    话说量化5

    钱是越多越好吗?这个问题似乎不用回答,那是肯定的啊。试问在座的各位看客哪位不是在挣钱,挣更多的钱,挣更多更多的钱的路上奔跑着的呢?钱是一种交换物质(当然也可以是精神层面的)的重要工具,对于每个人都很重要。所以狭义来说,钱当然是越多越好。

    49210发布于 2018-09-14
  • 来自专栏为了不折腾而去折腾的那些事

    CPU 混合推理,非常见模型量化方案:“二三五六” 位量化

    看过前两篇文章《零一万物模型折腾笔记:官方 Yi-34B 模型基础使用》、《本地运行“李开复”的零一万物 34B 模型》的同学知道,类似 34B 的模型,如果想不怎么量化直接跑起来,大概需要 76~85GB 如果我们进行效果损失比较小的 8 位量化,那么也需要 46GB 左右,如果是 4 位量化模型,那么也需要 21GB 左右的显存。 虽然模型能跑了,但是有可能模型效果“打了骨折”。 准备材料 关于模型量化需要准备两个素材,一个是模型,另外一个是量化使用的计算设备。 量化使用的硬件 而量化模型使用的硬件,需要 CPU 计算能力相对强一些的机器,如果你有 GPU,那么将会极大的提升模型量化速度,如果没有也没有关系。 K : alias for Q5_K_M 16 or Q5_K_S : 4.33G, +0.0400 ppl @ LLaMA-v1-7B 17 or Q5_K_M : 4.45G

    2.1K20编辑于 2023-12-12
  • 来自专栏流川疯编写程序的艺术

    《书生·浦语模型实战营》第5课 学习笔记:LMDeploy 量化部署 LLM 实践

    模型部署面临的挑战————计算量巨大 模型参数量巨大,前向推理时需要进行大量计算。 他的故事告诉我们,只要有坚持不懈的努力和创造性的思维,就能在科学领域取得... 5.Python代码集成 在开发项目时,有时我们需要将模型推理集成到Python代码里面。 \ 第5行,输出response 保存后运行代码文件: python /root/pipeline.py 5.2 向TurboMind后端传递参数 在第3章,我们通过向lmdeploy传递附加参数,实现模型量化推理 》第5课 学习笔记:LMDeploy 量化部署 LLM 实践 《书生·浦语模型实战营》第6课 学习笔记:Lagent & AgentLego 智能体应用搭建 《书生·浦语模型实战营》第7课 学习笔记 课程笔记 第5课 实践笔记 https://blog.csdn.net/hu_zhenghui/article/details/138811450 本人博客: 基于语言模型的本地知识库问答系统构建方案

    1.1K10编辑于 2024-07-01
  • 来自专栏为了不折腾而去折腾的那些事

    CPU 混合推理,非常见模型量化方案:“二三五六” 位量化

    看过前两篇文章《零一万物模型折腾笔记:官方 Yi-34B 模型基础使用[1]》、《本地运行“李开复”的零一万物 34B 模型[2]》的同学知道,类似 34B 的模型,如果想不怎么量化直接跑起来,大概需要 准备材料 关于模型量化需要准备两个素材,一个是模型,另外一个是量化使用的计算设备。 量化使用的硬件 而量化模型使用的硬件,需要 CPU 计算能力相对强一些的机器,如果你有 GPU,那么将会极大的提升模型量化速度,如果没有也没有关系。 如果我们只追求使用 8 位量化的,可以使用 CPU 和 GPU 混合推理的模型,那么我们可以参考这篇文章中的“尝试对模型进行几种不同的量化操作[5]”的方法中的命令行参数,将模型转换为 GGML 的 q8 -34b.html [2] 本地运行“李开复”的零一万物 34B 模型: https://soulteary.com/2023/11/26/locally-run-the-yi-34b-large-model-of-kai-fu-lee.html

    1.6K10编辑于 2023-12-14
  • 来自专栏澜舟科技 NLP

    模型量化实践路径 之 澜舟孟子预训练模型

    在上周发布的《一文看懂预训练最新进展》中,澜舟科技创始人兼 CEO 周明和澜舟科技模型技术负责人王宇龙分享了模型技术发展背景和近期百花齐放的模型及新应用、新趋势。 本文继续为大家深入介绍“模型量化”趋势以及澜舟的 5 个实践路径。以下内容根据澜舟科技算法研究员华菁云在「澜舟NLP分享会」演讲整理。全文约 4800 字,预计阅读时长  6 分钟。 如图 1 右侧所示,训练一个模型代价是巨大的,GPT-3 训练需要 460 万美金,此外,模型落地部署的代价也极大,在工业界实际应用中不得不考虑部署的成本。 我们的轻量化技术结合了模型蒸馏、剪枝和量化,将模型进行压缩得到轻量化模型,显著提升模型推理速度,改善用户体验。3.1 蒸馏图片不同的落地业务(如:在线业务,离线业务),对模型有不同尺寸需求。 图片总结本次演讲总结了澜舟轻量化技术实践的 5 种路径,包括语言学知识增强、训练优化技术、模型压缩(蒸馏、剪枝和量化)、检索增强、多任务,并分享了澜舟孟子轻量化预训练模型在垂直领域机器翻译、智能辅助写作

    1.9K10编辑于 2022-07-29
  • 5模型Agent模式

    模型中的5种AI Agent模式在模型中,AI Agent(人工智能代理)模式是一种重要的应用方式,可以从以下几个方面来理解:1. 在模型的背景下,AI Agent 是基于大规模预训练模型(如 GPT 等)构建的智能代理,能够利用模型的语言理解和生成能力来完成复杂的任务。 智能性:它基于模型的强大语言理解能力,能够理解自然语言指令,并生成自然语言响应。这种智能性使其能够处理复杂的语言任务,如对话、写作、翻译等。 工作原理感知与理解:AI Agent 首先通过输入(如用户指令、环境数据等)感知外部信息,然后利用模型的语言理解能力解析这些信息,确定任务目标。 下面介绍5种常见的AI Agent模式:1.

    4.1K10编辑于 2025-05-07
  • 来自专栏全栈程序员必看

    Yolov5更换backbone,与模型压缩(剪枝,量化,蒸馏)

    项目地址(GitHub):https://github.com/Ranking666/Yolov5-Processing 项目介绍: 本仓库是基于官方yolov5源码的基础上,进行的改进。 目前支持更换yolov5的backbone主干网络为Ghostnet,以及采用eagleeye的剪枝方法支持对yolov5系列的剪枝。 后续,将会添加更多更轻量,更优秀的主干网络,比如swintrans,EfficientNet等,以及其他剪枝方法,以及量化,蒸馏对于yolov5系列的支持。 Ghost Module可以适用在任何大型的CNN模型中,已经可以达到即插即用的效果。 EagleEye: Fast Sub-net Evaluation for Efficient Neural Network Pruning 详细大家可以看之前的初入神经网络剪枝量化3

    2.1K20编辑于 2022-09-22
  • Python实现模型LoRA微调与量化加速深度好文

    本文将深入讲解如何使用Python实现模型的LoRA微调与量化加速,并提供完整的代码示例。 通过这种方式,可以在不增加太多参数的情况下,实现对模型的微调。2. 量化技术原理与实现原理量化技术通过将浮点数转换为较低精度的数值(如int8或float16),从而减少模型的存储和计算需求。 结合LoRA与量化进行微调原理结合LoRA和量化技术,可以在保持模型性能的同时,进一步减少计算和存储需求。具体来说,首先使用LoRA对模型进行微调,然后对微调后的模型进行量化。 通过使用LoRA和量化技术,我们可以在保持模型性能的同时,大幅减少计算和存储需求,从而实现高效、低成本的音乐推荐服务。总结本文详细介绍了如何使用Python实现模型的LoRA微调与量化加速。 总结本文深入探讨了Python实现模型LoRA微调与量化加速深度好文的相关技术,从原理到实践,从基础到进阶,希望能够帮助读者全面掌握这一技术。

    62010编辑于 2025-12-16
领券