搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏GiantPandaCV
INT4量化用于目标检测
Int 4量化用于目标检测【GiantPandaCV】文章2019 CVPR，讲的是Int 4量化用于目标检测，主要是工程化的一些trick。 2、用小的训练数据集去调整(activation)激活函数的阈值(要clip的阈值)，用百分比的方法丢弃离群值和截断量化的激活函数值和梯度。3、对所有的参数，采用channel-wise的量化。 bit，且没有浮点数的操作一些细节：1、mapping scheme采用均匀分布的量化策略，且是非对称量化，就是有zero-point。都进行量化。 Int4量化与全精度对比 ? 消融实验 ? FreezeBN与不同bit的对比 ? 截断激活函数阈值的百分比 ? 与其他量化方法的对比图
1.3K20发布于 2021-03-24
来自专栏奇点大数据
话说量化（9）
别以为我在说瞎话，为了应付金融危机很多国家都采用量化宽松的政策，简单说就是印钱的方法来把财富集中在中央手里，然后好去做相关产业产能转化的鼓励工作，我说得够文雅吧。
49430发布于 2018-12-07
来自专栏AI人工智能
模型量化大揭秘：INT8、INT4量化对推理速度和精度的影响测试
模型量化大揭秘：INT8、INT4量化对推理速度和精度的影响测试 Hello，我是摘星！在彩虹般绚烂的技术栈中，我是那个永不停歇的色彩收集者。本文将基于我在多个实际项目中的量化实践经验，深入剖析INT8和INT4量化技术的原理、实现方法和性能表现。 INT4量化的极限压缩探索3.1 INT4量化的挑战与机遇INT4量化将模型压缩推向了极限，但也带来了更大的精度挑战：class INT4Quantizer: """INT4量化器 - 实现4位量化 INT4量化中的关键技术，通过将权重分成小组并为每组计算独立的量化参数，可以显著提高量化精度。量化优化关键词标签#模型量化 #INT8量化 #INT4量化 #推理优化 #AI部署
2.1K21编辑于 2025-08-20
Int4：Lucene中的标量量化更进一步
在Lucene中引入Int4量化在我们之前的博客中，我们详细介绍了Lucene中标量量化的实现。我们还探讨了两种特定的量化优化。现在，我们来探讨这个问题：在Lucene中，int4 量化是如何工作的，以及它是如何对齐的？存储和评分量化向量 Lucene将所有向量存储在一个平面文件中，使得可以根据某个序号检索每个向量。你可以在我们的之前的标量量化博客中阅读这方面的简要概述。现在，int4为我们提供了比之前更多的压缩选项。它将量化空间减少到只有16个可能的值（0到15）。网格搜索找到的分位数是量化得分误差与先前计算的真实10个最近邻的决定系数最大化的。图3：Lucene搜索置信区间空间，并测试int4量化的各种桶。图4：这是为CohereV3样本集找到的最佳int4量化桶。对于优化过程和此优化背后的数学的更完整解释，请参见优化截断间隔。
62121编辑于 2024-05-01
来自专栏大模型应用
大模型应用：大模型量化：INT4与INT8核心差异、选型指南及代码实现.53
在众多量化方案中，INT4 和 INT8 是应用最广泛的两种低比特量化技术。INT8 以“精度稳定、生态成熟”著称，INT4 则凭借“极致压缩、速度领先”成为边缘设备和消费级硬件的首选。 INT4的量化误差是INT8的15-20倍，但存储节省75%三、INT4 与 INT8 量化选型选择哪种量化方案，核心取决于硬件条件和任务精度要求，以下是具体的决策逻辑：1. 选型决策树四、INT4量化和INT8量化示例通过一个开源小模型TinyLlama/TinyLlama-1.1B-Chat-v1.0进行INT4量化和 INT8量化的完整代码示例，基于 Hugging Face INT4 量化实现INT4 量化必须搭配分组校准和双重量化策略，否则精度损失会很大。# 1. ，比普通 INT4 量化精度更高。
59754编辑于 2026-03-23
来自专栏大模型应用
大模型应用：量化校准：全局分组 Min-Max、GPTQ、AWQ 算法最优匹配.54
这是 INT4 量化从不可用到可用的基石。逐组量化：组 1：Min=-0.5，Max=1.2，Range=1.7，量化后 INT4 值为 [15, 11, 0]；组 2：Min=-9.8，Max=10.5，Range=20.3，量化后 INT4 ，是当前实际应用 INT4 量化的首选。 = 1.7000 INT4量化值: [15 0] 完整INT4量化值: [15, 11, 0, 15, 0] 步骤3: 反量化（分组） ------------------------------ INT4 量化的最优选型。
65032编辑于 2026-03-22
来自专栏Elastic Stack专栏
突破性进展：在 Elasticsearch 和 Lucene 中应用更好的二进制量化 (BBQ) 实现高效向量搜索
虽然向量本身存储为单比特值，但查询仅量化到 int4。这显著提高了搜索质量，同时不会增加存储成本。按位操作实现快速搜索。查询向量被量化并转换为允许高效按位操作的方式。一旦有了邻居，多样性和反向链接评分可以使用先前的 int4 量化值完成。合并完成后，临时文件会被删除，只保留比特量化向量。因此，文档值被比特量化，查询向量被量化为 int4。更有趣的是这些量化向量如何转换以实现快速查询。以我们上面的示例向量为例，我们可以将其量化为围绕质心的 int4。 9]有了量化向量，这才是乐趣的开始。量化Q(vc1') = [8, 15, 10, 7, 4, 0, 9, 9]每个维度的二进制值bits(Q(vc1')) = [0b1000, 0b1111, 0b1010, 0b0117, 0b0100
1.2K11编辑于 2024-11-18
来自专栏机器之心
WAIC 开发者日Workshop预告：旷视天元 MegEngine 推动低比特量化技术的落地
AI 工程师们研发了各种试图缩小模型大小并保持性能的办法，例如量化和蒸馏。目前相对成熟的模型量化方案是 INT8 量化。而为了推动低比特量化技术的发展，旷视天元 MegEngine 团队对 int4 进行了深入研究。在本届 2022 世界人工智能大会（WAIC）上，旷视天元 MegEngine 异构计算组负责人王彪，将出席 9 月 2 日的技术 Workshop，为大家分享开源深度学习框架实现支持 CUDA int4 （旷视科技 MegEngine 异构计算组负责人，王彪）分享主题：深度学习框架 MegEngine CUDA int4 推理详解分享嘉宾：王彪，旷视科技 MegEngine 异构计算组负责人。分享时间：北京时间 9 月 2 日 18:00-19:00 【关于旷视天元 MegEngine】旷视天元开源深度学习框架 MegEngine 是旷视自主研发的国产工业级深度学习框架，是旷视新一代 AI
57500编辑于 2022-08-25
来自专栏新智元
清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！
新智元报道编辑：Aeneas 润【新智元导读】清华朱军团队提出的INT4算法，解决了超低INT精度训练的挑战。LLM训练效率要起飞了！将激活、权重和梯度量化为4位，有望加速神经网络训练。最近，清华朱军团队提出了一种使用INT4算法实现所有矩阵乘法的Transformer训练方法。使用超低INT4精度进行训练，是非常具有挑战性的。论文地址：https://arxiv.org/abs/2306.11987 代码地址：https://github.com/xijiu9/Train_Transformers_with_INT4 全新的这种原型量化+INT4 MM算子实现，速度比FP16MM基线快2.2倍，并且将训练速度提高了35.1%。通过分析Transformer中MM的属性，研究人员提出了HQ和LSS方法来量化激活和梯度，同时保持准确性。在几个重要任务上，我们的方法与现有的INT4方法表现相当，甚至更好。
76010编辑于 2023-08-07
来自专栏运维开发王义杰
系统可靠性的量化：理解“多少个9”的含义
在谈论系统架构设计时，我们经常会提到系统的可靠性，并用“多少个9”来量化这一概念。对于很多人来说，这个表述可能显得抽象和难以理解。在这篇文章中，我们将深入探讨系统可靠性的量化概念，特别是如何将“多少个9”转换为系统每年的理论故障时间，从而更直观地理解这一指标。一、什么是系统可靠性？下面是一些常见的“多少个9”及其对应的年故障时间： 99%（两个9）：每年可能有3.65天的故障时间。 99.9%（三个9）：每年可能有8.76小时的故障时间。 99.99%（四个9）：每年可能有52.56分钟的故障时间。 99.999%（五个9）：每年可能有5.26分钟的故障时间。 99.9999%（六个9）：每年可能有31.5秒的故障时间。六、结论理解和量化系统的可靠性是系统架构设计中的关键部分。通过将“多少个9”转换为具体的年故障时间，我们可以更直观地理解和比较不同系统的可靠性水平。
2.3K10编辑于 2024-01-27
来自专栏机器之心
类GPT模型训练提速26.5%，清华朱军等人用INT4算法加速神经网络训练
结合前向和反向传播的量化技术，本文提出一种算法，即对 Transformer 中的所有线性运算使用 INT4 MMs。并且研究提出的原型量化 + INT4 MM 算子比 FP16 MM 基线快了 2.2 倍，将训练速度提高了 35.1%。学得的步长量化加速训练必须使用整数运算来计算前向传播。因此，研究者利用了学得的步长量化器（LSQ）。作为一种静态量化方法，LSQ 的量化规模不依赖于输入，因此比动态量化方法成本更低。相较之下，动态量化方法需要在每次迭代时动态地计算量化规模。给定一个 FP 矩阵 X，LSQ 通过如下公式 (2) 将 X 量化为整数。他们改变了隐藏层大小、中间全连接层大小和批大小，并在下图 5 中绘制了 INT4 训练的加速比。
70320编辑于 2023-08-07
来自专栏机器之心
一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型
基于量化感知训练的 Gemma 3 在 AI 模型中，研究者可以使用更少的位数例如 8 位（int8）甚至 4 位（int4）进行数据存储。采用 int4 量化意味着每个数值仅用 4 bit 表示 —— 相比 BF16 格式，数据大小缩减至 1/4。但是，这种量化方式通常会导致模型性能下降。那谷歌是如何保持模型质量的？与传统在模型训练完成后才进行量化的方式不同，QAT 将量化过程直接融入训练阶段 —— 通过在训练中模拟低精度运算，使模型在后续被量化为更小、更快的版本时，仍能保持准确率损失最小化。 6.6 GB（int4） Gemma 3 4B：从 8 GB（BF16）精简至 2.6 GB（int4） Gemma 3 1B：从 2 GB（BF16）降至仅 0.5 GB（int4）此图仅表示加载模型权重所需的来自 Two Minute Papers 频道的玩笑官方 int4 和 Q4_0 非量化 QAT 模型已在 Hugging Face 和 Kaggle 上线。
1.2K10编辑于 2025-04-21
来自专栏计算机视觉战队
加速大模型落地！使用4-bit训练Transformer，比FP16快2.2倍，提速35.1%
论文地址：https://arxiv.org/pdf/2306.11987.pdf 项目地址：https://github.com/xijiu9/Train_Transformers_with_INT4 01 概要简介在这项工作中，研究者提出了一种用INT4算法实现所有矩阵乘法的transformers的训练方法。超低INT4精度的训练极具挑战性。 Sun等人成功地用INT4激活/权重和FP4梯度训练了几个现代网络；和Chmiel等人提出了一种自定义的4位对数数字格式，以进一步提高精度。我们使用4位整数（INT4）算法加速正向和反向传播。首先描述我们的训练程序的正向传播。前向传播可以公式化为线性和非线性（GeLU、归一化、softmax等）算子的组合。在我们的训练过程中，我们使用INT4算法加速所有线性算子，并将所有计算密集度较低的非线性算子保留为16位浮点（FP16）格式。变压器中的所有线性运算都可以写成矩阵乘法（MM）形式。
1.3K30编辑于 2023-08-24
来自专栏计算机视觉战队
加速AGI落地！使用4-bit整数训练Transformer，比FP16快2.2倍，提速35.1%
论文地址：https://arxiv.org/pdf/2306.11987.pdf 项目地址：https://github.com/xijiu9/Train_Transformers_with_INT4 01 概要简介在这项工作中，研究者提出了一种用INT4算法实现所有矩阵乘法的transformers的训练方法。超低INT4精度的训练极具挑战性。 Sun等人成功地用INT4激活/权重和FP4梯度训练了几个现代网络；和Chmiel等人提出了一种自定义的4位对数数字格式，以进一步提高精度。我们使用4位整数（INT4）算法加速正向和反向传播。首先描述我们的训练程序的正向传播。前向传播可以公式化为线性和非线性（GeLU、归一化、softmax等）算子的组合。在我们的训练过程中，我们使用INT4算法加速所有线性算子，并将所有计算密集度较低的非线性算子保留为16位浮点（FP16）格式。变压器中的所有线性运算都可以写成矩阵乘法（MM）形式。
55020编辑于 2023-08-24
来自专栏PostgreSQL研究与原理解析
PG：INT4 VS. FLOAT4 VS. NUMERIC
PG：INT4 VS. FLOAT4 VS. NUMERIC 关系型数据库中数据类型是一个重要话题。PG提供很多不同类型，但并不是所有类型都相同。根据需要实现的目标，可能应用需要不同列类型。
1.5K20发布于 2021-02-03
来自专栏流川疯编写程序的艺术
《书生大模型实战营第3期》进阶岛第3关： LMDeploy 量化部署进阶实践
2.2.2 设置在线 kv cache int4/int8 量化自 v0.4.0 起，LMDeploy 支持在线 kv cache int4/int8 量化，量化方式为 per-head per-token 目前，LMDeploy 规定 qant_policy=4 表示 kv int4 量化，quant_policy=8 表示 kv int8 量化。但quant-policy 设置为4时，意味着使用int4精度进行量化。因此，LMDeploy将会使用int4精度提前开辟4GB的kv cache。量化通过将模型的权重和激活从高精度（如16位浮点数）转换为低精度（如8位整数、4位整数、甚至二值网络）来实现。那么标题中的W4A16又是什么意思呢？ W4：这通常表示权重量化为4位整数（int4）。输入以下指令，让我们同时启用量化后的模型、设定kv cache占用和kv cache int4量化。
81510编辑于 2024-08-24
来自专栏韩曙亮的移动开发专栏
【Cubase】Cubase 量化设置 ( 量化预置 | 长度量化 | 快捷键设置 | 量化开头 | 量化 MIDI 事件结尾 | 量化 MIDI 事件长度 )
文章目录一、要解决的问题二、量化预置三、长度量化四、快捷键及设置 1、快捷键及设置 2、量化开头 3、量化 MIDI 事件结尾 4、量化 MIDI 事件长度五、对 MIDI 进行量化操作本博客中的所有设置都是在 ; 三、长度量化 ---- 长度量化参数设置 : 在下图处设置长度量化 , 如果设置成 " 1/16 " , 那么使用鼠标拖动时 , 音符的长度只能是 16 分音符的整数倍 ; 上述的量化预置 ; 2、量化开头量化开头 : 默认按键 " Q " 是量化开头 ; 将所有音符的开始位置对齐到 " 量化预制 " 对应的格子中 ; 该设置是系统自带的 , 不建议修改 ; 3、量化 MIDI 事件结尾量化 MIDI 事件结尾 : 首先选中左侧的 " 量化类别 / 量化 MIDI 事件结尾 " , 点击右侧的 " 输入快捷键 " 下方的输入框 ; 输入快捷键后 , 点击 " 指定 " " 快捷键 , 量化音符长度 , 此时音符都排列整齐了 , 音符开头和音符长度进行了量化 , 音符结尾自然也进行了量化 ;
4.5K00编辑于 2023-03-28
来自专栏大模型应用
大模型应用：中小显存适配方案：大模型微调底座选型指标与应用实现.52
参数量与算力匹配度显存容量直接决定可加载模型的参数量上限，是选型的首要前提，8G显存设备需严格控制参数量：6B及以下参数量模型可通过INT4量化稳定加载；7B参数量模型需依赖INT4量化且显存占用接近上限选型过程2.1 初筛候选底座结合8G显存与中文生成需求，初筛3个底座：ChatGLM-6B（INT4量化）、Qwen-7B（INT4量化）、TinyLlama-7B。两者都支持INT4量化，适合8G显存环境 QUANT_CONFIG：INT4量化配置load_in_4bit=True：启用4位整数量化，显存占用减少约75%bnb_4bit_use_double_quant 分结论：8G显存场景下，ChatGLM-6B（INT4量化版）综合适配性更优，兼顾显存、速度与效果。案例结论8G显存+中文电商文案生成场景下：ChatGLM-6B（INT4量化版）为最优底座，兼顾显存适配性、生成效率与任务效果；Qwen-7B（INT4量化版）可作为备选，仅当需要长文本生成（超过2048
43632编辑于 2026-03-21
来自专栏大模型应用
大模型应用：大模型内存与显存深度解析：我们该如何组合匹配模型与显卡.63
）1字节效果损耗小，占用为FP32的1/4消费级硬件推理、轻量部署INT4（4位整数量化）0.5字节效果略有损耗，占用为FP32的1/8低配硬件、大模型（70B+）多卡部署3. 第二步：内存→显存（核心运行区）系统将内存中的模型权重，按层结构分批拷贝到显存中，此时：- 显存占用：7GB（模型核心权重）+2GB（预留余量，用于中间计算、输入输出数据）=9GB；- 内存占用：数据拷贝后 ×2×1.3≈33.8GB）显存不足，INT8量化（总占用≈16.9GB）流畅运行，速度8-12字/秒，适合复杂任务（如数据分析、多轮对话）；- 70B模型：INT4量化（总占用≈45.5GB），需2张 - 7B/13B模型：FP16精度无压力，7B速度可达15-20字/秒，13B速度12-15字/秒，支持高并发推理；- 70B模型：INT8量化（总占用≈91GB）需3张分片，INT4量化（总占用≈45.5GB 、70B INT4，简化部署复杂度；部署技巧：优先用INT8/INT4量化控制显存，通过device_map="auto"自动适配显存，避免手动分片的繁琐。
53153编辑于 2026-04-01
来自专栏JadePeng的技术博客
LLM 推理和应用开源框架梳理
FP16/INT8/INT4 在huggingface上去查看模型时，会看到一些带有fp16、int8、int4 后缀的模型，比如Llama-2-7B-fp16、chatglm-6b-int8、chatglm2 其数值范围大约是1.18e-38到3.40e38，精度大约是6到9位有效数字 FP16（半精度浮点数）：使用16位二进制表示，其中1位用于sign，5位用于exponent，10位用于fraction。在二进制中一个“0”或者“1”为一bit，INT8则意味着用8bit来表示一个数字 int4占用4个字节（32位）量化精度从高到低排列顺序是：fp16>int8>int4，量化的精度越低，模型的大小和推理所需的显存就越小 GPTQ GPTQ 是一种模型量化的方法，可以将语言模型量化成 INT8、INT4、INT3 甚至 INT2 的精度而不会出现较大的性能损失，在 HuggingFace 上如果看到模型名称带有GPTQ字样的以Llama-2-13B-chat为例，该模型全精度版本的大小为 26G，使用 GPTQ 进行量化成 INT4 精度后的模型大小为 7.26G。
2.9K10编辑于 2024-03-13

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

INT4量化用于目标检测

话说量化（9）

模型量化大揭秘：INT8、INT4量化对推理速度和精度的影响测试

Int4：Lucene中的标量量化更进一步

大模型应用：大模型量化：INT4与INT8核心差异、选型指南及代码实现.53

大模型应用：量化校准：全局分组 Min-Max、GPTQ、AWQ 算法最优匹配.54

突破性进展：在 Elasticsearch 和 Lucene 中应用更好的二进制量化 (BBQ) 实现高效向量搜索

WAIC 开发者日Workshop预告：旷视天元 MegEngine 推动低比特量化技术的落地

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！

系统可靠性的量化：理解“多少个9”的含义

类GPT模型训练提速26.5%，清华朱军等人用INT4算法加速神经网络训练

一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

加速大模型落地！使用4-bit训练Transformer，比FP16快2.2倍，提速35.1%

加速AGI落地！使用4-bit整数训练Transformer，比FP16快2.2倍，提速35.1%

PG：INT4 VS. FLOAT4 VS. NUMERIC

《书生大模型实战营第3期》进阶岛第3关： LMDeploy 量化部署进阶实践

【Cubase】Cubase 量化设置 ( 量化预置 | 长度量化 | 快捷键设置 | 量化开头 | 量化 MIDI 事件结尾 | 量化 MIDI 事件长度 )

大模型应用：中小显存适配方案：大模型微调底座选型指标与应用实现.52

大模型应用：大模型内存与显存深度解析：我们该如何组合匹配模型与显卡.63

LLM 推理和应用开源框架梳理

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

INT4量化用于目标检测

话说量化（9）

模型量化大揭秘：INT8、INT4量化对推理速度和精度的影响测试

Int4：Lucene中的标量量化更进一步

大模型应用：大模型量化：INT4与INT8核心差异、选型指南及代码实现.53

大模型应用：量化校准：全局分组 Min-Max、GPTQ、AWQ 算法最优匹配.54

突破性进展：在 Elasticsearch 和 Lucene 中应用更好的二进制量化 (BBQ) 实现高效向量搜索

WAIC 开发者日Workshop预告：旷视天元 MegEngine 推动低比特量化技术的落地

清华朱军团队新作：使用4位整数训练Transformer，比FP16快2.2倍，提速35.1%，加速AGI到来！

系统可靠性的量化：理解“多少个9”的含义

类GPT模型训练提速26.5%，清华朱军等人用INT4算法加速神经网络训练

一台3090就能跑Gemma 3 27B！谷歌发布Gemma 3全系QAT版模型

加速大模型落地！使用4-bit训练Transformer，比FP16快2.2倍，提速35.1%

加速AGI落地！使用4-bit整数训练Transformer，比FP16快2.2倍，提速35.1%

PG：INT4 VS. FLOAT4 VS. NUMERIC

《书生大模型实战营第3期》进阶岛 第3关： LMDeploy 量化部署进阶实践

【Cubase】Cubase 量化设置 ( 量化预置 | 长度量化 | 快捷键设置 | 量化开头 | 量化 MIDI 事件结尾 | 量化 MIDI 事件长度 )

大模型应用：中小显存适配方案：大模型微调底座选型指标与应用实现.52

大模型应用：大模型内存与显存深度解析：我们该如何组合匹配模型与显卡.63

LLM 推理和应用 开源框架梳理

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

《书生大模型实战营第3期》进阶岛第3关： LMDeploy 量化部署进阶实践

LLM 推理和应用开源框架梳理