搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏GiantPandaCV
INT4量化用于目标检测
Int 4量化用于目标检测【GiantPandaCV】文章2019 CVPR，讲的是Int 4量化用于目标检测，主要是工程化的一些trick。 2、用小的训练数据集去调整(activation)激活函数的阈值(要clip的阈值)，用百分比的方法丢弃离群值和截断量化的激活函数值和梯度。3、对所有的参数，采用channel-wise的量化。 bit，且没有浮点数的操作一些细节：1、mapping scheme采用均匀分布的量化策略，且是非对称量化，就是有zero-point。都进行量化。 Int4量化与全精度对比 ? 消融实验 ? FreezeBN与不同bit的对比 ? 截断激活函数阈值的百分比 ? 与其他量化方法的对比图
1.3K20发布于 2021-03-24
来自专栏AI人工智能
模型量化大揭秘：INT8、INT4量化对推理速度和精度的影响测试
模型量化大揭秘：INT8、INT4量化对推理速度和精度的影响测试 Hello，我是摘星！在彩虹般绚烂的技术栈中，我是那个永不停歇的色彩收集者。本文将基于我在多个实际项目中的量化实践经验，深入剖析INT8和INT4量化技术的原理、实现方法和性能表现。 INT4量化的极限压缩探索3.1 INT4量化的挑战与机遇INT4量化将模型压缩推向了极限，但也带来了更大的精度挑战：class INT4Quantizer: """INT4量化器 - 实现4位量化 INT4量化中的关键技术，通过将权重分成小组并为每组计算独立的量化参数，可以显著提高量化精度。量化优化关键词标签#模型量化 #INT8量化 #INT4量化 #推理优化 #AI部署
2.1K21编辑于 2025-08-20
来自专栏奇点大数据
话说量化（10）
K线图，大家应该不陌生，至少在影视剧里，在平常的财经新闻报道中应该都见过。如果是超过股的朋友那就更不会陌生了，K线图几乎就是在炒股过程中必不可少的工具，我们用它来看价格的变化形式。
54510发布于 2018-12-13
Int4：Lucene中的标量量化更进一步
在Lucene中引入Int4量化在我们之前的博客中，我们详细介绍了Lucene中标量量化的实现。我们还探讨了两种特定的量化优化。现在，我们来探讨这个问题：在Lucene中，int4 量化是如何工作的，以及它是如何对齐的？存储和评分量化向量 Lucene将所有向量存储在一个平面文件中，使得可以根据某个序号检索每个向量。你可以在我们的之前的标量量化博客中阅读这方面的简要概述。现在，int4为我们提供了比之前更多的压缩选项。它将量化空间减少到只有16个可能的值（0到15）。这组分位数是通过使用两个不同的置信区间来计算的：1−1/(+1)1−1/(dimensions+1)和1−(/10)/(+1)1−(dimensions/10)/(dimensions+1)。网格搜索找到的分位数是量化得分误差与先前计算的真实10个最近邻的决定系数最大化的。图3：Lucene搜索置信区间空间，并测试int4量化的各种桶。
62121编辑于 2024-05-01
来自专栏大模型应用
大模型应用：大模型量化：INT4与INT8核心差异、选型指南及代码实现.53
压缩比的直观数学说明：INT8压缩比：32位 → 8位，压缩率75%，只有原始的1/4大小INT4压缩比：32位 → 4位，压缩率87.5%，仅有原始的1/8大小实际存储示例：原始10亿参数模型（FP32 ）：存储需求 = 10亿 × 4字节 = 40亿字节 ≈ 3.73GB量化后： INT8：10亿 × 1字节 = 10亿字节 ≈ 0.93GBINT4：10亿 × 0.5字节 = 5亿字节 ≈ 0.47GB2 更精准，比如只算 [-10℃ ~ 10℃]的区间温度，scale 会变成20/15≈1.33，误差大幅降低。 INT4 量化实现INT4 量化必须搭配分组校准和双重量化策略，否则精度损失会很大。# 1. ，比普通 INT4 量化精度更高。
59754编辑于 2026-03-23
来自专栏大模型应用
大模型应用：量化校准：全局分组 Min-Max、GPTQ、AWQ 算法最优匹配.54
=====fig2, ax2 = plt.subplots(figsize=(10, 3))fig2.suptitle('INT4 量化 - 全局 Min-Max 量化与反量化', fontsize= 这是 INT4 量化从不可用到可用的基石。 =====fig2, ax2 = plt.subplots(figsize=(10, 3))fig2.suptitle('分组 Min-Max - 量化与反量化', fontsize=16, fontweight ，是当前实际应用 INT4 量化的首选。 INT4 量化的最优选型。
65032编辑于 2026-03-22
来自专栏机器之心
类GPT模型训练提速26.5%，清华朱军等人用INT4算法加速神经网络训练
结合前向和反向传播的量化技术，本文提出一种算法，即对 Transformer 中的所有线性运算使用 INT4 MMs。并且研究提出的原型量化 + INT4 MM 算子比 FP16 MM 基线快了 2.2 倍，将训练速度提高了 35.1%。学得的步长量化加速训练必须使用整数运算来计算前向传播。因此，研究者利用了学得的步长量化器（LSQ）。作为一种静态量化方法，LSQ 的量化规模不依赖于输入，因此比动态量化方法成本更低。研究在 ImageNet21k 上加载预训练的 ViT 检查点，并在 CIFAR-10、CIFAR-100 和 ImageNet1k 上对其进行微调。他们改变了隐藏层大小、中间全连接层大小和批大小，并在下图 5 中绘制了 INT4 训练的加速比。
70520编辑于 2023-08-07
来自专栏Elastic Stack专栏
突破性进展：在 Elasticsearch 和 Lucene 中应用更好的二进制量化 (BBQ) 实现高效向量搜索
虽然向量本身存储为单比特值，但查询仅量化到 int4。这显著提高了搜索质量，同时不会增加存储成本。按位操作实现快速搜索。查询向量被量化并转换为允许高效按位操作的方式。一旦有了邻居，多样性和反向链接评分可以使用先前的 int4 量化值完成。合并完成后，临时文件会被删除，只保留比特量化向量。因此，文档值被比特量化，查询向量被量化为 int4。更有趣的是这些量化向量如何转换以实现快速查询。以我们上面的示例向量为例，我们可以将其量化为围绕质心的 int4。最好直观地展示一下发生了什么：这里，每个 int4 量化值的相对位置比特被移位到单个字节。注意，所有第一个比特首先被打包在一起，然后是第二个比特，以此类推。但这实际上如何转换为点积呢？很有趣的是，BBQ 和 int4 在这个基准测试中步调一致。
1.2K11编辑于 2024-11-18
来自专栏大模型应用
大模型应用：大模型内存与显存深度解析：我们该如何组合匹配模型与显卡.63
，如RTX 3060/4070）；INT4量化：基础占用=7×10⁹ ×0.5字节=3.5GB；总占用=3.5GB×1.3≈4.55GB（需单卡8GB显存，如RTX 3070）。 =70GB；总占用=70GB×1.3≈91GB（需4张A10 24GB，总显存96GB）；INT4量化：基础占用=70×10⁹ ×0.5字节=35GB；总占用=35GB×1.3≈45.5GB（需2张RTX 注意事项参数单位换算：10亿参数=1×10⁹，1字节=8比特，无需额外换算；预留余量不可省：若仅按基础占用配显存，会因输入输出、中间计算导致显存溢出，模型运行会崩溃；量化模型的特殊性：INT4/INT8 13B模型：仅支持INT4量化（总占用≈13×10⁹×0.5×1.3≈8.58GB），效果略有损耗，适合简单对话场景；- 适用人群：初学者、预算有限的个人用户，用于7B模型入门体验。 - 7B模型：FP16精度（总占用≈18.2GB）流畅运行，生成速度10-15字/秒，效果接近原生；INT8/INT4量化可预留更多显存，支持多用户并发；- 13B模型：FP16精度（总占用≈13×10⁹
53553编辑于 2026-04-01
来自专栏大模型应用
大模型应用：拆解大模型算力需求：算力是什么？怎么衡量？如何匹配？.64
量化适配原则：INT4量化虽降低算力需求，但部分老显卡（如RTX 30系列）对INT4优化不足，加速效果有限，优先选RTX 40系列及以上。4. 量化模型量化的核心是匹配显卡精度支持能力：RTX 40系列及以上支持INT4硬件加速，A100支持FP8精度，老显卡仅支持INT8软件量化（加速效果有限）。 INT4优化，算力需求再减半，速度再提升50%，效果损耗8%-12%，适合对话、文本生成等低精度场景，需搭配NF4量化格式降低损耗。 INT4量化 print("测试INT4量化...") 实战选型与优化核心：个人用户：优先选RTX 4090，用INT8/INT4量化优化算力，兼顾效果与速度；高端需求：等待RTX 5090，32GB大显存+高算力，单卡搞定70B INT4模型，简化部署；企业用户
62764编辑于 2026-04-02
来自专栏深度学习那些事儿
大大大大大模型部署方案抛砖引玉
但实际应用中，消费级显卡要比专业显卡便宜的多（比如3090相比A10，同样都是24G显存），所以用消费级显卡部署LLM也很有钱途。，INT4、INT8量化的llama https://github.com/tpoisonooo/llama.onnx.git 以ONNX的方式运行llama 量化和精度对于消费级显卡，直接FP32肯定放不下，一般最基本的是FP16（llama的7B，FP16需要14G的显存，大多数的消费级显卡已经说拜拜了），而INT8和INT4量化则就很有用了，举几个例子：对于3080显卡，10G显存，那么13B的INT4 大概的结论： FP16速度最快，因为INT4和INT8的量化没有优化好（理论上INT8和INT4比FP16要快不少），而INT4的triton优化明显比huggingface中INT8的实现要好，建议使用量化起来也不容易，QAT代价太大，PTQ校准的时候也需要很大的内存和显存，会用INT8和INT4量化网上对于这类模型的加速kernel不是很多，可以参考的较少，很多需要自己手写服务方式的区别对于小模型来说
1.7K30编辑于 2023-10-19
来自专栏大模型应用
大模型应用：中小显存适配方案：大模型微调底座选型指标与应用实现.52
参数量与算力匹配度显存容量直接决定可加载模型的参数量上限，是选型的首要前提，8G显存设备需严格控制参数量：6B及以下参数量模型可通过INT4量化稳定加载；7B参数量模型需依赖INT4量化且显存占用接近上限 GitHub星标≥10k、Hugging Face下载量高的模型，此类模型通常适配transformers、peft等主流微调工具；2. 选型过程2.1 初筛候选底座结合8G显存与中文生成需求，初筛3个底座：ChatGLM-6B（INT4量化）、Qwen-7B（INT4量化）、TinyLlama-7B。两者都支持INT4量化，适合8G显存环境 QUANT_CONFIG：INT4量化配置load_in_4bit=True：启用4位整数量化，显存占用减少约75%bnb_4bit_use_double_quant 案例结论8G显存+中文电商文案生成场景下：ChatGLM-6B（INT4量化版）为最优底座，兼顾显存适配性、生成效率与任务效果；Qwen-7B（INT4量化版）可作为备选，仅当需要长文本生成（超过2048
43832编辑于 2026-03-21
来自专栏大模型应用
大模型应用：大模型算力优化方案：识别突破隐性瓶颈达到效能最大化.65
如果你还在用 CUDA 11.8，系统会直接屏蔽它，从而导致INT4 推理吞吐白白损失 10%～15%。个人开发者1.1 低成本场景：用技巧换算力量化优化：采用INT4量化（NF4格式），搭配BitsAndBytes库，将13B模型显存占用从40GB降至10GB以内；模型裁剪：裁剪注意力头从16个至12个适配方案：量化+蒸馏+轻量化架构深度量化：采用INT4量化+模型蒸馏，将7B模型蒸馏为3B轻量化版本，算力需求降低60%，功耗控制在15W以内；架构适配：选用MobileLLM等边缘优化模型，替换原生Transformer 2.2 量化优化工具2.2.1 BitsAndBytes：“开箱即用”的轻量量化利器核心能力：提供 INT8 和 INT4 量化，特别适合在消费级 GPU（如 RTX 30/40 系列）上快速运行大模型 2.2.2 GPTQ：“高精度+加速”兼顾的量化方案核心能力：对模型进行逐层权重量化 + 误差补偿训练，实现 INT4 精度接近 FP16 效果，同时通过定制 CUDA kernel 加速推理。
29243编辑于 2026-04-03
来自专栏AI SPPECH
2. 训练 vs 推理：真正烧钱的是哪一步
量化ROI提升：FP8和INT4量化技术在推理中的投资回报率（ROI）已达到1:5以上，成为降低成本的关键手段。 <2% 对延迟敏感的场景 INT4 87.5% 4x <5% 大规模推理场景 3.3.2 vLLM中的量化实现 vLLM支持多种量化技术，包括：权重量化激活量化 KVCache量化以下是vLLM 从表格中可以看出，INT4量化技术的ROI最高，达到了1:8，是降低推理成本的最有效手段。 INT4量化技术将成为推理的标配，能够将推理成本降低80%以上。 Continuous Batching技术将被所有主流推理框架采用，成为行业标准。 INT4量化方案成本最低，仅为传统方案的15%。
41710编辑于 2026-01-19
来自专栏机器之心
一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型
基于量化感知训练的 Gemma 3 在 AI 模型中，研究者可以使用更少的位数例如 8 位（int8）甚至 4 位（int4）进行数据存储。采用 int4 量化意味着每个数值仅用 4 bit 表示 —— 相比 BF16 格式，数据大小缩减至 1/4。但是，这种量化方式通常会导致模型性能下降。那谷歌是如何保持模型质量的？与传统在模型训练完成后才进行量化的方式不同，QAT 将量化过程直接融入训练阶段 —— 通过在训练中模拟低精度运算，使模型在后续被量化为更小、更快的版本时，仍能保持准确率损失最小化。 6.6 GB（int4） Gemma 3 4B：从 8 GB（BF16）精简至 2.6 GB（int4） Gemma 3 1B：从 2 GB（BF16）降至仅 0.5 GB（int4）此图仅表示加载模型权重所需的来自 Two Minute Papers 频道的玩笑官方 int4 和 Q4_0 非量化 QAT 模型已在 Hugging Face 和 Kaggle 上线。
1.2K10编辑于 2025-04-21
来自专栏PostgreSQL研究与原理解析
PG：INT4 VS. FLOAT4 VS. NUMERIC
PG：INT4 VS. FLOAT4 VS. NUMERIC 关系型数据库中数据类型是一个重要话题。PG提供很多不同类型，但并不是所有类型都相同。根据需要实现的目标，可能应用需要不同列类型。创建表并初始化数据开始前，首先创建一个表并初始化10亿条数据，数据类型如下所示： test=# CREATE TABLE t_demo (a int, b float, c numeric); CREATE
1.5K20发布于 2021-02-03
来自专栏Python爬虫与算法进阶
Python量化 | 10年翻400倍的炒股策略(视频讲解)
邢不行是经管之家（原人大经济论坛）「量化投资」版块的版主，毕业于中国香港科技大学，热门教程《量化小讲堂》作者。可以将这个条件抽象为一个可以实际投资的简单策略：在每个月的月底，找出市值最小的10只股票，然后全仓等额买入。每月如此反复。例如，假设一开始有10万元。在6月的最后一天，将所有股票按照市值从小到大排序，选取最小的10只股票，然后每个股票买入1万元。持有1个月，等到了7月31日，将手上的所有股票都卖掉，然后再找出届时市值最小的10只股票等额买入，如此往复循环即可。 10年400倍对！量化投资从基础到策略编写，手把手教你从获取数据到自动下单。课程注重实际，学完后能自己写出量化策略并自动交易。课程配套大量实际案例作为作业，老师持续督促，不做作业会被骂的！
6.5K92发布于 2018-04-04
来自专栏新智元
清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！
新智元报道编辑：Aeneas 润【新智元导读】清华朱军团队提出的INT4算法，解决了超低INT精度训练的挑战。LLM训练效率要起飞了！将激活、权重和梯度量化为4位，有望加速神经网络训练。最近，清华朱军团队提出了一种使用INT4算法实现所有矩阵乘法的Transformer训练方法。使用超低INT4精度进行训练，是非常具有挑战性的。这种原型量化+INT4 MM算子实现，速度比FP16MM基线快2.2倍，并且将训练速度提高了35.1%。因此，结果不能完全反映INT4训练算法的潜力。完全优化的实施需要大量工程，超出了我们论文的讨论范围。结论研究人员提出了一种对硬件很友好的Transformer INT4的训练方法。通过分析Transformer中MM的属性，研究人员提出了HQ和LSS方法来量化激活和梯度，同时保持准确性。在几个重要任务上，我们的方法与现有的INT4方法表现相当，甚至更好。
76110编辑于 2023-08-07
来自专栏流川疯编写程序的艺术
《书生大模型实战营第3期》进阶岛第3关： LMDeploy 量化部署进阶实践
2.2.2 设置在线 kv cache int4/int8 量化自 v0.4.0 起，LMDeploy 支持在线 kv cache int4/int8 量化，量化方式为 per-head per-token 目前，LMDeploy 规定 qant_policy=4 表示 kv int4 量化，quant_policy=8 表示 kv int8 量化。但quant-policy 设置为4时，意味着使用int4精度进行量化。因此，LMDeploy将会使用int4精度提前开辟4GB的kv cache。量化通过将模型的权重和激活从高精度（如16位浮点数）转换为低精度（如8位整数、4位整数、甚至二值网络）来实现。那么标题中的W4A16又是什么意思呢？ W4：这通常表示权重量化为4位整数（int4）。输入以下指令，让我们同时启用量化后的模型、设定kv cache占用和kv cache int4量化。
81510编辑于 2024-08-24
来自专栏DeepHub IMBA
NVFP4量化技术深度解析：4位精度下实现2.3倍推理加速
虽然相比标准INT4量化模型（通常采用128的块大小）略高，但与FP16相比仍实现了3.5倍的内存占用减少，相比FP8约节省1.8倍存储空间。传统INT4量化在推理过程中无法直接处理4位数值，必须先将INT4权重反量化为16位数值才能进行计算，这一额外步骤虽然在SGLang和vLLM等现代推理框架中已经高度优化，但仍然产生计算开销并限制了整体速度 /tmp MAX_JOBS=10 CCACHE_DIR=. 考虑到4位量化在Llama 3.3等大型模型上已经接近全精度性能，NVFP4与INT4模型间的精度差异并不显著。真正的差异可能在小于10B参数的模型上更加明显，这将是一个值得深入研究的方向。测试结果还证实了激活量化对保持速度优势的关键作用——仅量化权重的NVFP4A16模型速度提升有限，仅略快于INT4模型。
89910编辑于 2025-11-15

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

INT4量化用于目标检测

模型量化大揭秘：INT8、INT4量化对推理速度和精度的影响测试

话说量化（10）

Int4：Lucene中的标量量化更进一步

大模型应用：大模型量化：INT4与INT8核心差异、选型指南及代码实现.53

大模型应用：量化校准：全局分组 Min-Max、GPTQ、AWQ 算法最优匹配.54

类GPT模型训练提速26.5%，清华朱军等人用INT4算法加速神经网络训练

突破性进展：在 Elasticsearch 和 Lucene 中应用更好的二进制量化 (BBQ) 实现高效向量搜索

大模型应用：大模型内存与显存深度解析：我们该如何组合匹配模型与显卡.63

大模型应用：拆解大模型算力需求：算力是什么？怎么衡量？如何匹配？.64

大大大大大模型部署方案抛砖引玉

大模型应用：中小显存适配方案：大模型微调底座选型指标与应用实现.52

大模型应用：大模型算力优化方案：识别突破隐性瓶颈达到效能最大化.65

2. 训练 vs 推理：真正烧钱的是哪一步

一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

PG：INT4 VS. FLOAT4 VS. NUMERIC

Python量化 | 10年翻400倍的炒股策略(视频讲解)

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！

《书生大模型实战营第3期》进阶岛第3关： LMDeploy 量化部署进阶实践

NVFP4量化技术深度解析：4位精度下实现2.3倍推理加速

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

INT4量化用于目标检测

模型量化大揭秘：INT8、INT4量化对推理速度和精度的影响测试

话说量化（10）

Int4：Lucene中的标量量化更进一步

大模型应用：大模型量化：INT4与INT8核心差异、选型指南及代码实现.53

大模型应用：量化校准：全局分组 Min-Max、GPTQ、AWQ 算法最优匹配.54

类GPT模型训练提速26.5%，清华朱军等人用INT4算法加速神经网络训练

突破性进展：在 Elasticsearch 和 Lucene 中应用更好的二进制量化 (BBQ) 实现高效向量搜索

大模型应用：大模型内存与显存深度解析：我们该如何组合匹配模型与显卡.63

大模型应用：拆解大模型算力需求：算力是什么？怎么衡量？如何匹配？.64

大大大大大模型部署方案抛砖引玉

大模型应用：中小显存适配方案：大模型微调底座选型指标与应用实现.52

大模型应用：大模型算力优化方案：识别突破隐性瓶颈达到效能最大化.65

2. 训练 vs 推理：真正烧钱的是哪一步

一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

PG：INT4 VS. FLOAT4 VS. NUMERIC

Python量化 | 10年翻400倍的炒股策略(视频讲解)

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！

《书生大模型实战营第3期》进阶岛 第3关： LMDeploy 量化部署进阶实践

NVFP4量化技术深度解析：4位精度下实现2.3倍推理加速

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

《书生大模型实战营第3期》进阶岛第3关： LMDeploy 量化部署进阶实践