首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏GiantPandaCV

    INT4量化用于目标检测

    Int 4量化用于目标检测 【GiantPandaCV】文章2019 CVPR,讲的是Int 4量化用于目标检测,主要是工程化的一些trick。 bit,且没有浮点数的操作 一些细节:1、mapping scheme采用均匀分布的量化策略,且是非对称量化,就是有zero-point。 都进行量化5、对齐zero-point:zero-point主要用于zero-padding 6、上采样和element-wise的操作(针对FPN):上采样都采用最近插值( nearest interpolation Int4量化与全精度对比 ? 消融实验 ? FreezeBN与不同bit的对比 ? 截断激活函数阈值的百分比 ? 与其他量化方法的对比图

    1.3K20发布于 2021-03-24
  • 来自专栏AI人工智能

    模型量化大揭秘:INT8、INT4量化对推理速度和精度的影响测试

    本文将基于我在多个实际项目中的量化实践经验,深入剖析INT8和INT4量化技术的原理、实现方法和性能表现。 INT4量化的极限压缩探索3.1 INT4量化的挑战与机遇INT4量化将模型压缩推向了极限,但也带来了更大的精度挑战:class INT4Quantizer: """INT4量化器 - 实现4位量化 INT4量化中的关键技术,通过将权重分成小组并为每组计算独立的量化参数,可以显著提高量化精度。 98%25%快速部署INT8静态4.0x1.8x97-99%25%生产环境INT4分组8.0x2.2x88-95%12.5%资源受限5. 量化优化关键词标签#模型量化 #INT8量化 #INT4量化 #推理优化 #AI部署

    2.1K21编辑于 2025-08-20
  • 来自专栏奇点大数据

    话说量化5

    钱是越多越好吗?这个问题似乎不用回答,那是肯定的啊。试问在座的各位看客哪位不是在挣钱,挣更多的钱,挣更多更多的钱的路上奔跑着的呢?钱是一种交换物质(当然也可以是精神层面的)的重要工具,对于每个人都很重要。所以狭义来说,钱当然是越多越好。

    49210发布于 2018-09-14
  • Int4:Lucene中的标量量化更进一步

    在Lucene中引入Int4量化 在我们之前的博客中,我们详细介绍了Lucene中标量量化的实现。我们还探讨了两种特定的量化优化。 现在,我们来探讨这个问题:在Lucene中,int4 量化是如何工作的,以及它是如何对齐的? 存储和评分量化向量 Lucene将所有向量存储在一个平面文件中,使得可以根据某个序号检索每个向量。 你可以在我们的之前的标量量化博客中阅读这方面的简要概述。 现在,int4为我们提供了比之前更多的压缩选项。它将量化空间减少到只有16个可能的值(0到15)。 网格搜索找到的分位数是量化得分误差与先前计算的真实10个最近邻的决定系数最大化的。 图3:Lucene搜索置信区间空间,并测试int4量化的各种桶。 图5:CohereV3 500k向量的内存需求。 当然,我们在常规的标量量化中看到了典型的4倍减少,但然后int4额外的2倍减少。将所需内存从2GB降低到不到300MB。记住,这是在启用压缩的情况下。

    62121编辑于 2024-05-01
  • 来自专栏大模型应用

    大模型应用:大模型量化INT4与INT8核心差异、选型指南及代码实现.53

    :INT8是高速铁路:比飞机慢一些,但更稳定可靠INT4是廉价航空:可能有些颠簸,但价格便宜、覆盖更广5. (INT4)图3:数值范围对比 绘制数轴展示离散值密度差异,标注相邻值间隔:INT8为0.031,INT4为0.5突出INT4值间距是INT8的16倍图4-5:图像质量对比,直观展示不同量化级别的视觉差异 图4:256色图像(平滑自然)图5:16色图像(明显像素化)图6:量化误差分析 计算并比较INT8和INT4量化误差,显示INT4平均误差显著高于INT8,误差分布直方图量化展示差异核心要点:1. 5. :INT4 模型的显存占用约为 INT8 的 50%,FP32 的 12.5%;推理速度:INT4 模型的推理速度是 INT8 的 1.7 倍,FP32 的 5 倍;精度表现:INT4 模型的 PPL

    59754编辑于 2026-03-23
  • 来自专栏AI机器学习与深度学习算法

    机器学习入门 5-4 向量化

    本小节主要介绍使用向量化的方式提升性能。 简单线性回归 先来回归一下简单线性回归优化目标以及通过最小二乘的方式求得的参数a,b的解析解。 ? 在上一个小节中,我们是通过循环的方式来求解分子和分母,前面也说过,使用for循环的这种方式,性能相对是比较低的,如果有办法将for循环的计算变成向量之间的计算的话,得益于numpy模块性能就会大大的提升,这就是向量化运算含义 上面我们将对应元素相乘然后相加的操作看成是向量之间的点乘,这也是为什么在最小二乘求解a的解析解的时候要把式子写成相乘累加的形式,这样就可以将其转换成向量之间的运算,进行向量化运算提升性能。 使用向量化运算实现线性回归算法 前面使用sklearn的思想封装了一个名为"SimpleLinearRegression1"的类,在类中使用for循环的方式来求解参数a的值。 ? ? ? ? 实现向量化的代码只需将for循环部分改成向量点乘即可: ? ? ? ? 为了比较两者的性能,将两种方式导入jupyter中,通过魔法命令来验证性能。 ? ? ? ?

    89320发布于 2019-11-13
  • 来自专栏大模型应用

    大模型应用:量化校准:全局分组 Min-Max、GPTQ、AWQ 算法最优匹配.54

    细节保留较好低利用率(如仅用到5-6个值):表明量化区间设置不合理,大量数值空置,精度损失大优化目标:通过调整量化参数,让权重的实际分布尽可能填满可用整数范围,最大化信息保留。 ()print(f"5. , 10.5, -9.8] 5. 5. INT4 量化的最优选型。

    65032编辑于 2026-03-22
  • 来自专栏AI智韵

    YoloV5改进策略:RefConv打造轻量化YoloV5利器

    我们使用RefConv替换YoloV5中的卷积,既能提高精度,又能降低运算量,使得模型更加轻量化! YoloV5官方结果 YOLOv5l summary: 267 layers, 46275213 parameters, 0 gradients, 108.2 GFLOPs c17 230 131 0.992 0.992 0.995 0.797 c5 tu-22 230 98 0.983 1 0.995 0.788 测试结果 YOLOv5l c17 230 131 0.984 1 0.995 0.839 c5

    24810编辑于 2024-10-22
  • 来自专栏机器之心

    类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练

    所需数值精度从 FP16 降到 FP8、INT32+INT8 和 INT8+INT5。 结合前向和反向传播的量化技术,本文提出一种算法,即对 Transformer 中的所有线性运算使用 INT4 MMs。 并且研究提出的原型量化 + INT4 MM 算子比 FP16 MM 基线快了 2.2 倍,将训练速度提高了 35.1%。 学得的步长量化 加速训练必须使用整数运算来计算前向传播。因此,研究者利用了学得的步长量化器(LSQ)。作为一种静态量化方法,LSQ 的量化规模不依赖于输入,因此比动态量化方法成本更低。 他们改变了隐藏层大小、中间全连接层大小和批大小,并在下图 5 中绘制了 INT4 训练的加速比。

    70320编辑于 2023-08-07
  • 来自专栏机器之心

    一台3090就能跑Gemma 3 27B!谷歌发布Gemma 3全系QAT版模型

    基于量化感知训练的 Gemma 3 在 AI 模型中,研究者可以使用更少的位数例如 8 位(int8)甚至 4 位(int4)进行数据存储。 采用 int4 量化意味着每个数值仅用 4 bit 表示 —— 相比 BF16 格式,数据大小缩减至 1/4。 但是,这种量化方式通常会导致模型性能下降。 那谷歌是如何保持模型质量的? 具体实现上,谷歌基于未量化的 checkpoint 概率分布作为目标,进行了约 5,000 步的 QAT 训练。当量化至 Q4_0(一种常见的量化格式) 时,困惑度下降了 54%。 6.6 GB(int4) Gemma 3 4B:从 8 GB(BF16)精简至 2.6 GB(int4) Gemma 3 1B:从 2 GB(BF16)降至仅 0.5 GB(int4) 此图仅表示加载模型权重所需的 来自 Two Minute Papers 频道的玩笑 官方 int4 和 Q4_0 非量化 QAT 模型已在 Hugging Face 和 Kaggle 上线。

    1.2K10编辑于 2025-04-21
  • 来自专栏大模型应用

    大模型应用:中小显存适配方案:大模型微调底座选型指标与应用实现.52

    5. 推理速度直接影响部署后的用户体验,参数量越小、量化精度越低,推理速度越快。8G显存场景下和核心关注指标:1. 6B量化模型单条文本生成时间通常≤2秒,7B量化模型生成时间≥2秒2. 5. 核心参数复核:确认两者均为Decoder-only架构,上下文窗口≥2048 token,支持INT4量化与LoRA微调,无参数适配问题。6. 选型过程2.1 初筛候选底座结合8G显存与中文生成需求,初筛3个底座:ChatGLM-6B(INT4量化)、Qwen-7B(INT4量化)、TinyLlama-7B。 两者都支持INT4量化,适合8G显存环境 QUANT_CONFIG:INT4量化配置load_in_4bit=True:启用4位整数量化,显存占用减少约75%bnb_4bit_use_double_quant ]}秒/条,评分{test_results[1]['平均效果评分(1-5分)']}分") print("结论:8G显存场景下,ChatGLM-6B(INT4量化版)综合适配性更优,兼顾显存、速度与效果

    43732编辑于 2026-03-21
  • 来自专栏Python数据科学

    Python 量化交易神书面世,赠送 5

    前不久,收到清华大学出版社赠送的 《深入浅出Python量化交易实战》 一书,也答应了出版社要写一些读书笔记,今天就来交作业了。 下面是我参考书中内容做的一些简单尝试,仅供学习参考。 这本书对于使用Python玩量化的初学者们,还是很友好的,感兴趣可以考虑入手一本看看。 笔记① 用Python绘制出股价的5日均线和20日均线。 众所周知,5日均线是短线交易的生死线,而20日均线是中长线趋势的分水岭。因此,基于这两条均线,可以设计出一些简单的交易策略。 能够看到最早的数据到2021年的10月8日: 然后我开始添加5日和20日均线 price['ma5'] = price['Adj Close'].rolling(5).mean() price['ma20 fig.add_subplot(111, ylabel='Price') price['Adj Close'].plot(ax=ax1, color='g', lw=2., legend=True) price.ma5.

    92320编辑于 2022-03-11
  • 来自专栏叶子的开发者社区

    【yolov5】onnx的INT8量化engine

    GitHub上有大佬写好代码,理论上直接克隆仓库里下来使用 git clone https://github.com/Wulingtian/yolov5_tensorrt_int8_tools.git 然后在yolov5_tensorrt_int8_tools的convert_trt_quant.py 修改如下参数 BATCH_SIZE 模型量化一次输入多少张图片 BATCH 模型量化次数 height 成功量化后的模型大小只有4MB,相比之下的FP16的大小为6MB,FP32的大小为9MB 再看看检测速度,速度和FP16差不太多 但是效果要差上一些了 那肯定不能忘记送上修改的代码,折腾一晚上的结果如下 cv2 BATCH_SIZE = 1 BATCH = 79 height = 640 width = 640 CALIB_IMG_DIR = '/content/drive/MyDrive/yolov5/ DataLoader() engine_model_path = "runs/train/exp4/weights/int8.engine" calibration_table = 'yolov5_

    1.1K70编辑于 2023-11-13
  • 来自专栏新智元

    清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!

    新智元报道 编辑:Aeneas 润 【新智元导读】清华朱军团队提出的INT4算法,解决了超低INT精度训练的挑战。LLM训练效率要起飞了! 将激活、权重和梯度量化为4位,有望加速神经网络训练。 最近,清华朱军团队提出了一种使用INT4算法实现所有矩阵乘法的Transformer训练方法。 使用超低INT4精度进行训练,是非常具有挑战性的。 所需的数值精度已从FP16降低到FP8、INT32+INT8和INT8+INT5。 这种原型量化+INT4 MM算子实现,速度比FP16MM基线快2.2倍,并且将训练速度提高了35.1%。 通过分析Transformer中MM的属性,研究人员提出了HQ和LSS方法来量化激活和梯度,同时保持准确性。 在几个重要任务上,我们的方法与现有的INT4方法表现相当,甚至更好。

    76010编辑于 2023-08-07
  • 来自专栏大模型应用

    大模型应用:拆解大模型算力需求:算力是什么?怎么衡量?如何匹配?.64

    量化适配原则:INT4量化虽降低算力需求,但部分老显卡(如RTX 30系列)对INT4优化不足,加速效果有限,优先选RTX 40系列及以上。4. 量化模型 量化的核心是匹配显卡精度支持能力:RTX 40系列及以上支持INT4硬件加速,A100支持FP8精度,老显卡仅支持INT8软件量化(加速效果有限)。 以RTX 4090为例,分精度优化细节:FP16→INT8:借助第4代张量核心硬件加速,算力需求减半,生成速度提升1倍,效果损耗<5%,适合代码编写、数据分析等中高精度场景;INT8→INT4:开启硬件 INT4量化 print("测试INT4量化...") 5.

    62164编辑于 2026-04-02
  • 来自专栏Elastic Stack专栏

    突破性进展:在 Elasticsearch 和 Lucene 中应用更好的二进制量化 (BBQ) 实现高效向量搜索

    BBQ 在索引速度(量化时间减少 20-30 倍)、查询速度(查询速度提高 2-5 倍)上优于传统方法如产品量化 (PQ),且准确性无额外损失。 虽然向量本身存储为单比特值,但查询仅量化int4。这显著提高了搜索质量,同时不会增加存储成本。按位操作实现快速搜索。查询向量被量化并转换为允许高效按位操作的方式。 一旦有了邻居,多样性和反向链接评分可以使用先前的 int4 量化值完成。合并完成后,临时文件会被删除,只保留比特量化向量。 因此,文档值被比特量化,查询向量被量化int4。更有趣的是这些量化向量如何转换以实现快速查询。以我们上面的示例向量为例,我们可以将其量化为围绕质心的 int4。 每个元素表示通过 1, 1.5, 2, 3, 4, 5 的 oversampling 的 recall@100。E5-small这是从 quora 数据集中构建的 500k E5-small 向量。

    1.2K11编辑于 2024-11-18
  • 来自专栏机器之心

    4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级

    为了克服上述缺点,SageAttention2 提出将 Q, K 量化INT4,并将 P, V 量化至 FP8 来加速 Attention。然而,这样做的挑战是很大的。 经过仔细分析后,研究团队发现主要是两个原因导致了量化注意力的不准确: (1)INT4 的数值范围相比 INT8 非常小,导致其量化误差在 Q,K 矩阵中出现一些异常值时会变得十分明显,恰好大多模型都在 这使得相比直接量化 Q, K 至 INT4 的准确度有质的改变,如下表展示了对比了该方法和直接量化 Q, K 至 INT4 在 Cogvideo 和 Llama3.1 上的端到端表现。 矩阵 Q 平滑前后的数据分布可视化的结果如下,可以发现平滑后的 Q 对 INT4 数据范围的利用度更高: (2)对 Q, K 进行 Per-thread 量化。 下图展示了 SageAttention2 的算法流程: SageAttention2 共实现了两种 Kernel,区别在于对 Q, K 进行 INT4 量化还是 INT8 量化: 此外,SageAttention2

    93110编辑于 2025-02-15
  • 来自专栏深度学习那些事儿

    大大大大大模型部署方案抛砖引玉

    INT4、INT8量化的llama https://github.com/tpoisonooo/llama.onnx.git 以ONNX的方式运行llama 量化和精度 对于消费级显卡,直接FP32肯定放不下 ,一般最基本的是FP16(llama的7B,FP16需要14G的显存,大多数的消费级显卡已经说拜拜了),而INT8和INT4量化则就很有用了,举几个例子: 对于3080显卡,10G显存,那么13B的INT4 就很有性价比,精度比7B-FP16要高很多 对于3090显卡,24G显存,那么30B的INT4可以在单个3090显卡部署,精度更高 可以看下图,列举了目前多种开源预训练模型在各种数据集上的分数和量化精度的关系 大概的结论: FP16速度最快,因为INT4和INT8的量化没有优化好(理论上INT8和INT4比FP16要快不少),而INT4的triton优化明显比huggingface中INT8的实现要好,建议使用 量化起来也不容易,QAT代价太大,PTQ校准的时候也需要很大的内存和显存,会用INT8和INT4量化 网上对于这类模型的加速kernel不是很多,可以参考的较少,很多需要自己手写 服务方式的区别 对于小模型来说

    1.7K30编辑于 2023-10-19
  • 来自专栏新智元

    1-bit大模型还能再突破!新一代BitNet架构启用4位激活值

    然后重用优化器状态,并使用5B token进行混合量化和稀疏化的训练。实验将topK设置为50%(attention的输出投影位置)。 消融实验 图4显示了700M BitNet a4.8的训练损耗曲线,比较了使用完整的INT4/FP4量化,以及本文的混合量化和稀疏化。 完整的INT4量化会导致发散,而混合架构在训练困惑度方面明显优于完整的FP4架构。 对于完整的INT4量化,由于其输入具有更大的异常值,这里设置β = 2*mean(|X|)。 图5显示了这些模型的训练损失曲线。Squared ReLU的训练困惑度比Swish略好,同时实现了更高的稀疏性。

    49500编辑于 2025-02-15
  • 来自专栏大模型应用

    大模型应用:大模型内存与显存深度解析:我们该如何组合匹配模型与显卡.63

    )1字节效果损耗小,占用为FP32的1/4消费级硬件推理、轻量部署INT4(4位整数量化)0.5字节效果略有损耗,占用为FP32的1/8低配硬件、大模型(70B+)多卡部署3. - 7B模型: INT8量化(总显存占用≈9.1GB),流畅运行,生成速度5-10字/秒,支持长文本生成、代码编写;FP16精度(总占用≈18.2GB)显存不足,需分片加载,速度可降至2-3字/秒;- ×2×1.3≈33.8GB)显存不足,INT8量化(总占用≈16.9GB)流畅运行,速度8-12字/秒,适合复杂任务(如数据分析、多轮对话);- 70B模型:INT4量化(总占用≈45.5GB),需2张 - 7B/13B模型:FP16精度无压力,7B速度可达15-20字/秒,13B速度12-15字/秒,支持高并发推理;- 70B模型:INT8量化(总占用≈91GB)需3张分片,INT4量化(总占用≈45.5GB 、70B INT4,简化部署复杂度;部署技巧:优先用INT8/INT4量化控制显存,通过device_map="auto"自动适配显存,避免手动分片的繁琐。

    53253编辑于 2026-04-01
领券