首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏GiantPandaCV

    INT4量化用于目标检测

    Int 4量化用于目标检测 【GiantPandaCV】文章2019 CVPR,讲的是Int 4量化用于目标检测,主要是工程化的一些trick。 2、用小的训练数据集去调整(activation)激活函数的阈值(要clip的阈值),用百分比的方法丢弃离群值和截断量化的激活函数值和梯度。3、对所有的参数,采用channel-wise的量化。 bit,且没有浮点数的操作 一些细节:1、mapping scheme采用均匀分布的量化策略,且是非对称量化,就是有zero-point。 都进行量化Int4量化与全精度对比 ? 消融实验 ? FreezeBN与不同bit的对比 ? 截断激活函数阈值的百分比 ? 与其他量化方法的对比图

    1.3K20发布于 2021-03-24
  • 来自专栏AI人工智能

    模型量化大揭秘:INT8、INT4量化对推理速度和精度的影响测试

    模型量化大揭秘:INT8、INT4量化对推理速度和精度的影响测试 Hello,我是摘星! 在彩虹般绚烂的技术栈中,我是那个永不停歇的色彩收集者。 本文将基于我在多个实际项目中的量化实践经验,深入剖析INT8和INT4量化技术的原理、实现方法和性能表现。 INT4量化的极限压缩探索3.1 INT4量化的挑战与机遇INT4量化将模型压缩推向了极限,但也带来了更大的精度挑战:class INT4Quantizer: """INT4量化器 - 实现4位量化 INT4量化中的关键技术,通过将权重分成小组并为每组计算独立的量化参数,可以显著提高量化精度。 量化优化关键词标签#模型量化 #INT8量化 #INT4量化 #推理优化 #AI部署

    2.1K21编辑于 2025-08-20
  • 来自专栏奇点大数据

    话说量化10

    K线图,大家应该不陌生,至少在影视剧里,在平常的财经新闻报道中应该都见过。如果是超过股的朋友那就更不会陌生了,K线图几乎就是在炒股过程中必不可少的工具,我们用它来看价格的变化形式。

    54510发布于 2018-12-13
  • Int4:Lucene中的标量量化更进一步

    在Lucene中引入Int4量化 在我们之前的博客中,我们详细介绍了Lucene中标量量化的实现。我们还探讨了两种特定的量化优化。 现在,我们来探讨这个问题:在Lucene中,int4 量化是如何工作的,以及它是如何对齐的? 存储和评分量化向量 Lucene将所有向量存储在一个平面文件中,使得可以根据某个序号检索每个向量。 你可以在我们的之前的标量量化博客中阅读这方面的简要概述。 现在,int4为我们提供了比之前更多的压缩选项。它将量化空间减少到只有16个可能的值(0到15)。 这组分位数是通过使用两个不同的置信区间来计算的:1−1/(+1)1−1/(dimensions+1)和1−(/10)/(+1)1−(dimensions/10)/(dimensions+1)。 网格搜索找到的分位数是量化得分误差与先前计算的真实10个最近邻的决定系数最大化的。 图3:Lucene搜索置信区间空间,并测试int4量化的各种桶。

    62121编辑于 2024-05-01
  • 来自专栏大模型应用

    大模型应用:大模型量化INT4与INT8核心差异、选型指南及代码实现.53

    压缩比的直观数学说明:INT8压缩比:32位 → 8位,压缩率75%,只有原始的1/4大小INT4压缩比:32位 → 4位,压缩率87.5%,仅有原始的1/8大小实际存储示例:原始10亿参数模型(FP32 ): 存储需求 = 10亿 × 4字节 = 40亿字节 ≈ 3.73GB量化后: INT8:10亿 × 1字节 = 10亿字节 ≈ 0.93GBINT4:10亿 × 0.5字节 = 5亿字节 ≈ 0.47GB2 更精准,比如只算 [-10℃ ~ 10℃]的区间温度,scale 会变成20/15≈1.33,误差大幅降低。 INT4 量化实现INT4 量化必须搭配分组校准和双重量化策略,否则精度损失会很大。# 1. ,比普通 INT4 量化精度更高。

    59754编辑于 2026-03-23
  • 来自专栏大模型应用

    大模型应用:量化校准:全局分组 Min-Max、GPTQ、AWQ 算法最优匹配.54

    =====fig2, ax2 = plt.subplots(figsize=(10, 3))fig2.suptitle('INT4 量化 - 全局 Min-Max 量化与反量化', fontsize= 这是 INT4 量化从不可用到可用的基石。 =====fig2, ax2 = plt.subplots(figsize=(10, 3))fig2.suptitle('分组 Min-Max - 量化与反量化', fontsize=16, fontweight ,是当前实际应用 INT4 量化的首选。 INT4 量化的最优选型。

    65032编辑于 2026-03-22
  • 来自专栏机器之心

    类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练

    结合前向和反向传播的量化技术,本文提出一种算法,即对 Transformer 中的所有线性运算使用 INT4 MMs。 并且研究提出的原型量化 + INT4 MM 算子比 FP16 MM 基线快了 2.2 倍,将训练速度提高了 35.1%。 学得的步长量化 加速训练必须使用整数运算来计算前向传播。因此,研究者利用了学得的步长量化器(LSQ)。作为一种静态量化方法,LSQ 的量化规模不依赖于输入,因此比动态量化方法成本更低。 研究在 ImageNet21k 上加载预训练的 ViT 检查点,并在 CIFAR-10、CIFAR-100 和 ImageNet1k 上对其进行微调。 他们改变了隐藏层大小、中间全连接层大小和批大小,并在下图 5 中绘制了 INT4 训练的加速比。

    70520编辑于 2023-08-07
  • 来自专栏Elastic Stack专栏

    突破性进展:在 Elasticsearch 和 Lucene 中应用更好的二进制量化 (BBQ) 实现高效向量搜索

    虽然向量本身存储为单比特值,但查询仅量化int4。这显著提高了搜索质量,同时不会增加存储成本。按位操作实现快速搜索。查询向量被量化并转换为允许高效按位操作的方式。 一旦有了邻居,多样性和反向链接评分可以使用先前的 int4 量化值完成。合并完成后,临时文件会被删除,只保留比特量化向量。 因此,文档值被比特量化,查询向量被量化int4。更有趣的是这些量化向量如何转换以实现快速查询。以我们上面的示例向量为例,我们可以将其量化为围绕质心的 int4。 最好直观地展示一下发生了什么:这里,每个 int4 量化值的相对位置比特被移位到单个字节。注意,所有第一个比特首先被打包在一起,然后是第二个比特,以此类推。但这实际上如何转换为点积呢? 很有趣的是,BBQ 和 int4 在这个基准测试中步调一致。

    1.2K11编辑于 2024-11-18
  • 来自专栏大模型应用

    大模型应用:大模型内存与显存深度解析:我们该如何组合匹配模型与显卡.63

    ,如RTX 3060/4070);INT4量化:基础占用=7×10⁹ ×0.5字节=3.5GB;总占用=3.5GB×1.3≈4.55GB(需单卡8GB显存,如RTX 3070)。 =70GB;总占用=70GB×1.3≈91GB(需4张A10 24GB,总显存96GB);INT4量化:基础占用=70×10⁹ ×0.5字节=35GB;总占用=35GB×1.3≈45.5GB(需2张RTX 注意事项参数单位换算:10亿参数=1×10⁹,1字节=8比特,无需额外换算;预留余量不可省:若仅按基础占用配显存,会因输入输出、中间计算导致显存溢出,模型运行会崩溃;量化模型的特殊性:INT4/INT8 13B模型:仅支持INT4量化(总占用≈13×10⁹×0.5×1.3≈8.58GB),效果略有损耗,适合简单对话场景;- 适用人群:初学者、预算有限的个人用户,用于7B模型入门体验。 - 7B模型:FP16精度(总占用≈18.2GB)流畅运行,生成速度10-15字/秒,效果接近原生;INT8/INT4量化可预留更多显存,支持多用户并发;- 13B模型:FP16精度(总占用≈13×10

    53553编辑于 2026-04-01
  • 来自专栏大模型应用

    大模型应用:拆解大模型算力需求:算力是什么?怎么衡量?如何匹配?.64

    量化适配原则:INT4量化虽降低算力需求,但部分老显卡(如RTX 30系列)对INT4优化不足,加速效果有限,优先选RTX 40系列及以上。4. 量化模型 量化的核心是匹配显卡精度支持能力:RTX 40系列及以上支持INT4硬件加速,A100支持FP8精度,老显卡仅支持INT8软件量化(加速效果有限)。 INT4优化,算力需求再减半,速度再提升50%,效果损耗8%-12%,适合对话、文本生成等低精度场景,需搭配NF4量化格式降低损耗。 INT4量化 print("测试INT4量化...") 实战选型与优化核心:个人用户:优先选RTX 4090,用INT8/INT4量化优化算力,兼顾效果与速度;高端需求:等待RTX 5090,32GB大显存+高算力,单卡搞定70B INT4模型,简化部署;企业用户

    62764编辑于 2026-04-02
  • 来自专栏深度学习那些事儿

    大大大大大模型部署方案抛砖引玉

    但实际应用中,消费级显卡要比专业显卡便宜的多(比如3090相比A10,同样都是24G显存),所以用消费级显卡部署LLM也很有钱途。 ,INT4、INT8量化的llama https://github.com/tpoisonooo/llama.onnx.git 以ONNX的方式运行llama 量化和精度 对于消费级显卡,直接FP32肯定放不下 ,一般最基本的是FP16(llama的7B,FP16需要14G的显存,大多数的消费级显卡已经说拜拜了),而INT8和INT4量化则就很有用了,举几个例子: 对于3080显卡,10G显存,那么13B的INT4 大概的结论: FP16速度最快,因为INT4和INT8的量化没有优化好(理论上INT8和INT4比FP16要快不少),而INT4的triton优化明显比huggingface中INT8的实现要好,建议使用 量化起来也不容易,QAT代价太大,PTQ校准的时候也需要很大的内存和显存,会用INT8和INT4量化 网上对于这类模型的加速kernel不是很多,可以参考的较少,很多需要自己手写 服务方式的区别 对于小模型来说

    1.7K30编辑于 2023-10-19
  • 来自专栏大模型应用

    大模型应用:中小显存适配方案:大模型微调底座选型指标与应用实现.52

    参数量与算力匹配度显存容量直接决定可加载模型的参数量上限,是选型的首要前提,8G显存设备需严格控制参数量:6B及以下参数量模型可通过INT4量化稳定加载;7B参数量模型需依赖INT4量化且显存占用接近上限 GitHub星标≥10k、Hugging Face下载量高的模型,此类模型通常适配transformers、peft等主流微调工具;2. 选型过程2.1 初筛候选底座结合8G显存与中文生成需求,初筛3个底座:ChatGLM-6B(INT4量化)、Qwen-7B(INT4量化)、TinyLlama-7B。 两者都支持INT4量化,适合8G显存环境 QUANT_CONFIG:INT4量化配置load_in_4bit=True:启用4位整数量化,显存占用减少约75%bnb_4bit_use_double_quant 案例结论8G显存+中文电商文案生成场景下:ChatGLM-6B(INT4量化版)为最优底座,兼顾显存适配性、生成效率与任务效果;Qwen-7B(INT4量化版)可作为备选,仅当需要长文本生成(超过2048

    43832编辑于 2026-03-21
  • 来自专栏大模型应用

    大模型应用:大模型算力优化方案:识别突破隐性瓶颈达到效能最大化.65

    如果你还在用 CUDA 11.8,系统会直接屏蔽它,从而导致INT4 推理吞吐白白损失 10%~15%。 个人开发者1.1 低成本场景:用技巧换算力量化优化:采用INT4量化(NF4格式),搭配BitsAndBytes库,将13B模型显存占用从40GB降至10GB以内;模型裁剪:裁剪注意力头从16个至12个 适配方案:量化+蒸馏+轻量化架构深度量化:采用INT4量化+模型蒸馏,将7B模型蒸馏为3B轻量化版本,算力需求降低60%,功耗控制在15W以内;架构适配:选用MobileLLM等边缘优化模型,替换原生Transformer 2.2 量化优化工具2.2.1 BitsAndBytes:“开箱即用”的轻量量化利器核心能力: 提供 INT8 和 INT4 量化,特别适合在消费级 GPU(如 RTX 30/40 系列)上快速运行大模型 2.2.2 GPTQ:“高精度+加速”兼顾的量化方案核心能力: 对模型进行逐层权重量化 + 误差补偿训练,实现 INT4 精度接近 FP16 效果,同时通过定制 CUDA kernel 加速推理。

    29243编辑于 2026-04-03
  • 来自专栏AI SPPECH

    2. 训练 vs 推理:真正烧钱的是哪一步

    量化ROI提升:FP8和INT4量化技术在推理中的投资回报率(ROI)已达到1:5以上,成为降低成本的关键手段。 <2% 对延迟敏感的场景 INT4 87.5% 4x <5% 大规模推理场景 3.3.2 vLLM中的量化实现 vLLM支持多种量化技术,包括: 权重量化 激活量化 KVCache量化 以下是vLLM 从表格中可以看出,INT4量化技术的ROI最高,达到了1:8,是降低推理成本的最有效手段。 INT4量化技术将成为推理的标配,能够将推理成本降低80%以上。 Continuous Batching技术将被所有主流推理框架采用,成为行业标准。 INT4量化方案成本最低,仅为传统方案的15%。

    41710编辑于 2026-01-19
  • 来自专栏机器之心

    一台3090就能跑Gemma 3 27B!谷歌发布Gemma 3全系QAT版模型

    基于量化感知训练的 Gemma 3 在 AI 模型中,研究者可以使用更少的位数例如 8 位(int8)甚至 4 位(int4)进行数据存储。 采用 int4 量化意味着每个数值仅用 4 bit 表示 —— 相比 BF16 格式,数据大小缩减至 1/4。 但是,这种量化方式通常会导致模型性能下降。 那谷歌是如何保持模型质量的? 与传统在模型训练完成后才进行量化的方式不同,QAT 将量化过程直接融入训练阶段 —— 通过在训练中模拟低精度运算,使模型在后续被量化为更小、更快的版本时,仍能保持准确率损失最小化。 6.6 GB(int4) Gemma 3 4B:从 8 GB(BF16)精简至 2.6 GB(int4) Gemma 3 1B:从 2 GB(BF16)降至仅 0.5 GB(int4) 此图仅表示加载模型权重所需的 来自 Two Minute Papers 频道的玩笑 官方 int4 和 Q4_0 非量化 QAT 模型已在 Hugging Face 和 Kaggle 上线。

    1.2K10编辑于 2025-04-21
  • 来自专栏PostgreSQL研究与原理解析

    PG:INT4 VS. FLOAT4 VS. NUMERIC

    PG:INT4 VS. FLOAT4 VS. NUMERIC 关系型数据库中数据类型是一个重要话题。PG提供很多不同类型,但并不是所有类型都相同。根据需要实现的目标,可能应用需要不同列类型。 创建表并初始化数据 开始前,首先创建一个表并初始化10亿条数据,数据类型如下所示: test=# CREATE TABLE t_demo (a int, b float, c numeric); CREATE

    1.5K20发布于 2021-02-03
  • 来自专栏Python爬虫与算法进阶

    Python量化 | 10年翻400倍的炒股策略(视频讲解)

    邢不行是经管之家(原人大经济论坛)「量化投资」版块的版主,毕业于中国香港科技大学,热门教程《量化小讲堂》作者。 可以将这个条件抽象为一个可以实际投资的简单策略:在每个月的月底,找出市值最小的10只股票,然后全仓等额买入。每月如此反复。 例如,假设一开始有10万元。 在6月的最后一天,将所有股票按照市值从小到大排序,选取最小的10只股票,然后每个股票买入1万元。 持有1个月,等到了7月31日,将手上的所有股票都卖掉,然后再找出届时市值最小的10只股票等额买入,如此往复循环即可。 10年400倍 对! 量化投资从基础到策略编写,手把手教你从获取数据到自动下单。 课程注重实际,学完后能自己写出量化策略并自动交易。 课程配套大量实际案例作为作业,老师持续督促,不做作业会被骂的!

    6.5K92发布于 2018-04-04
  • 来自专栏新智元

    清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!

    新智元报道 编辑:Aeneas 润 【新智元导读】清华朱军团队提出的INT4算法,解决了超低INT精度训练的挑战。LLM训练效率要起飞了! 将激活、权重和梯度量化为4位,有望加速神经网络训练。 最近,清华朱军团队提出了一种使用INT4算法实现所有矩阵乘法的Transformer训练方法。 使用超低INT4精度进行训练,是非常具有挑战性的。 这种原型量化+INT4 MM算子实现,速度比FP16MM基线快2.2倍,并且将训练速度提高了35.1%。 因此,结果不能完全反映INT4训练算法的潜力。 完全优化的实施需要大量工程,超出了我们论文的讨论范围。 结论 研究人员提出了一种对硬件很友好的Transformer INT4的训练方法。 通过分析Transformer中MM的属性,研究人员提出了HQ和LSS方法来量化激活和梯度,同时保持准确性。 在几个重要任务上,我们的方法与现有的INT4方法表现相当,甚至更好。

    76110编辑于 2023-08-07
  • 来自专栏流川疯编写程序的艺术

    《书生大模型实战营第3期》进阶岛 第3关: LMDeploy 量化部署进阶实践

    2.2.2 设置在线 kv cache int4/int8 量化 自 v0.4.0 起,LMDeploy 支持在线 kv cache int4/int8 量化量化方式为 per-head per-token 目前,LMDeploy 规定 qant_policy=4 表示 kv int4 量化,quant_policy=8 表示 kv int8 量化。 但quant-policy 设置为4时,意味着使用int4精度进行量化。因此,LMDeploy将会使用int4精度提前开辟4GB的kv cache。 量化通过将模型的权重和激活从高精度(如16位浮点数)转换为低精度(如8位整数、4位整数、甚至二值网络)来实现。 那么标题中的W4A16又是什么意思呢? W4:这通常表示权重量化为4位整数(int4)。 输入以下指令,让我们同时启用量化后的模型、设定kv cache占用和kv cache int4量化

    81510编辑于 2024-08-24
  • 来自专栏DeepHub IMBA

    NVFP4量化技术深度解析:4位精度下实现2.3倍推理加速

    虽然相比标准INT4量化模型(通常采用128的块大小)略高,但与FP16相比仍实现了3.5倍的内存占用减少,相比FP8约节省1.8倍存储空间。 传统INT4量化在推理过程中无法直接处理4位数值,必须先将INT4权重反量化为16位数值才能进行计算,这一额外步骤虽然在SGLang和vLLM等现代推理框架中已经高度优化,但仍然产生计算开销并限制了整体速度 /tmp MAX_JOBS=10 CCACHE_DIR=. 考虑到4位量化在Llama 3.3等大型模型上已经接近全精度性能,NVFP4与INT4模型间的精度差异并不显著。真正的差异可能在小于10B参数的模型上更加明显,这将是一个值得深入研究的方向。 测试结果还证实了激活量化对保持速度优势的关键作用——仅量化权重的NVFP4A16模型速度提升有限,仅略快于INT4模型。

    89910编辑于 2025-11-15
领券