首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏GiantPandaCV

    INT4量化用于目标检测

    Int 4量化用于目标检测 【GiantPandaCV】文章2019 CVPR,讲的是Int 4量化用于目标检测,主要是工程化的一些trick。 2、用小的训练数据集去调整(activation)激活函数的阈值(要clip的阈值),用百分比的方法丢弃离群值和截断量化的激活函数值和梯度。3、对所有的参数,采用channel-wise的量化。 bit,且没有浮点数的操作 一些细节:1、mapping scheme采用均匀分布的量化策略,且是非对称量化,就是有zero-point。 都进行量化Int4量化与全精度对比 ? 消融实验 ? FreezeBN与不同bit的对比 ? 截断激活函数阈值的百分比 ? 与其他量化方法的对比图

    1.3K20发布于 2021-03-24
  • 来自专栏AI人工智能

    模型量化大揭秘:INT8、INT4量化对推理速度和精度的影响测试

    模型量化大揭秘:INT8、INT4量化对推理速度和精度的影响测试 Hello,我是摘星! 在彩虹般绚烂的技术栈中,我是那个永不停歇的色彩收集者。 本文将基于我在多个实际项目中的量化实践经验,深入剖析INT8和INT4量化技术的原理、实现方法和性能表现。 INT4量化的极限压缩探索3.1 INT4量化的挑战与机遇INT4量化将模型压缩推向了极限,但也带来了更大的精度挑战:class INT4Quantizer: """INT4量化器 - 实现4位量化 INT4量化中的关键技术,通过将权重分成小组并为每组计算独立的量化参数,可以显著提高量化精度。 量化优化关键词标签#模型量化 #INT8量化 #INT4量化 #推理优化 #AI部署

    1.8K21编辑于 2025-08-20
  • Int4:Lucene中的标量量化更进一步

    在Lucene中引入Int4量化 在我们之前的博客中,我们详细介绍了Lucene中标量量化的实现。我们还探讨了两种特定的量化优化。 现在,我们来探讨这个问题:在Lucene中,int4 量化是如何工作的,以及它是如何对齐的? 存储和评分量化向量 Lucene将所有向量存储在一个平面文件中,使得可以根据某个序号检索每个向量。 你可以在我们的之前的标量量化博客中阅读这方面的简要概述。 现在,int4为我们提供了比之前更多的压缩选项。它将量化空间减少到只有16个可能的值(0到15)。 网格搜索找到的分位数是量化得分误差与先前计算的真实10个最近邻的决定系数最大化的。 图3:Lucene搜索置信区间空间,并测试int4量化的各种桶。 图4:这是为CohereV3样本集找到的最佳int4量化桶。 对于优化过程和此优化背后的数学的更完整解释,请参见优化截断间隔。

    60521编辑于 2024-05-01
  • 来自专栏大模型应用

    大模型应用:大模型量化INT4与INT8核心差异、选型指南及代码实现.53

    在众多量化方案中,INT4 和 INT8 是应用最广泛的两种低比特量化技术。INT8 以“精度稳定、生态成熟”著称,INT4 则凭借“极致压缩、速度领先”成为边缘设备和消费级硬件的首选。 INT4量化误差是INT8的15-20倍,但存储节省75%三、INT4 与 INT8 量化选型选择哪种量化方案,核心取决于硬件条件和任务精度要求,以下是具体的决策逻辑:1. 选型决策树四、INT4量化和INT8量化示例通过一个开源小模型TinyLlama/TinyLlama-1.1B-Chat-v1.0进行INT4量化和 INT8量化的完整代码示例,基于 Hugging Face INT4 量化实现INT4 量化必须搭配分组校准和双重量化策略,否则精度损失会很大。# 1. ,比普通 INT4 量化精度更高。

    2922编辑于 2026-03-23
  • 来自专栏大模型应用

    大模型应用:量化校准:全局分组 Min-Max、GPTQ、AWQ 算法最优匹配.54

    这是 INT4 量化从不可用到可用的基石。 逐组量化: 组 1:Min=-0.5,Max=1.2,Range=1.7,量化INT4 值为 [15, 11, 0];组 2:Min=-9.8,Max=10.5,Range=20.3,量化INT4 ,是当前实际应用 INT4 量化的首选。 = 1.7000 INT4量化值: [15 0] 完整INT4量化值: [15, 11, 0, 15, 0] 步骤3: 反量化(分组) ------------------------------ INT4 量化的最优选型。

    14721编辑于 2026-03-22
  • 来自专栏机器之心

    类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练

    结合前向和反向传播的量化技术,本文提出一种算法,即对 Transformer 中的所有线性运算使用 INT4 MMs。 并且研究提出的原型量化 + INT4 MM 算子比 FP16 MM 基线快了 2.2 倍,将训练速度提高了 35.1%。 学得的步长量化 加速训练必须使用整数运算来计算前向传播。因此,研究者利用了学得的步长量化器(LSQ)。作为一种静态量化方法,LSQ 的量化规模不依赖于输入,因此比动态量化方法成本更低。 相较之下,动态量化方法需要在每次迭代时动态地计算量化规模。 给定一个 FP 矩阵 X,LSQ 通过如下公式 (2) 将 X 量化为整数。 他们改变了隐藏层大小、中间全连接层大小和批大小,并在下图 5 中绘制了 INT4 训练的加速比。

    68320编辑于 2023-08-07
  • 来自专栏机器之心

    一台3090就能跑Gemma 3 27B!谷歌发布Gemma 3全系QAT版模型

    基于量化感知训练的 Gemma 3 在 AI 模型中,研究者可以使用更少的位数例如 8 位(int8)甚至 4 位(int4)进行数据存储。 采用 int4 量化意味着每个数值仅用 4 bit 表示 —— 相比 BF16 格式,数据大小缩减至 1/4。 但是,这种量化方式通常会导致模型性能下降。 那谷歌是如何保持模型质量的? 与传统在模型训练完成后才进行量化的方式不同,QAT 将量化过程直接融入训练阶段 —— 通过在训练中模拟低精度运算,使模型在后续被量化为更小、更快的版本时,仍能保持准确率损失最小化。 6.6 GB(int4) Gemma 3 4B:从 8 GB(BF16)精简至 2.6 GB(int4) Gemma 3 1B:从 2 GB(BF16)降至仅 0.5 GB(int4) 此图仅表示加载模型权重所需的 来自 Two Minute Papers 频道的玩笑 官方 int4 和 Q4_0 非量化 QAT 模型已在 Hugging Face 和 Kaggle 上线。

    92010编辑于 2025-04-21
  • 来自专栏新智元

    清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!

    新智元报道 编辑:Aeneas 润 【新智元导读】清华朱军团队提出的INT4算法,解决了超低INT精度训练的挑战。LLM训练效率要起飞了! 将激活、权重和梯度量化为4位,有望加速神经网络训练。 最近,清华朱军团队提出了一种使用INT4算法实现所有矩阵乘法的Transformer训练方法。 使用超低INT4精度进行训练,是非常具有挑战性的。 这种原型量化+INT4 MM算子实现,速度比FP16MM基线快2.2倍,并且将训练速度提高了35.1%。 因此,结果不能完全反映INT4训练算法的潜力。 完全优化的实施需要大量工程,超出了我们论文的讨论范围。 结论 研究人员提出了一种对硬件很友好的Transformer INT4的训练方法。 通过分析Transformer中MM的属性,研究人员提出了HQ和LSS方法来量化激活和梯度,同时保持准确性。 在几个重要任务上,我们的方法与现有的INT4方法表现相当,甚至更好。

    73310编辑于 2023-08-07
  • 来自专栏韩曙亮的移动开发专栏

    【Cubase】Cubase 量化设置 ( 量化预置 | 长度量化 | 快捷键设置 | 量化开头 | 量化 MIDI 事件结尾 | 量化 MIDI 事件长度 )

    文章目录 一、要解决的问题 二、量化预置 三、长度量化 四、快捷键及设置 1、快捷键及设置 2、量化开头 3、量化 MIDI 事件结尾 4、量化 MIDI 事件长度 五、对 MIDI 进行量化操作 本博客中的所有设置都是在 ; 三、长度量化 ---- 长度量化 参数设置 : 在下图 处设置长度量化 , 如果设置成 " 1/16 " , 那么使用鼠标拖动时 , 音符的长度只能是 16 分音符的整数倍 ; 上述的 量化预置 ; 2、量化开头 量化开头 : 默认按键 " Q " 是量化开头 ; 将所有音符的开始位置对齐到 " 量化预制 " 对应的格子中 ; 该设置是系统自带的 , 不建议修改 ; 3、量化 MIDI 事件结尾 量化 MIDI 事件结尾 : 首先选中左侧的 " 量化类别 / 量化 MIDI 事件结尾 " , 点击右侧的 " 输入快捷键 " 下方的输入框 ; 输入快捷键后 , 点击 " 指定 " " 快捷键 , 量化音符长度 , 此时音符都排列整齐了 , 音符开头和音符长度进行了量化 , 音符结尾自然也进行了量化 ;

    4.5K00编辑于 2023-03-28
  • 来自专栏PostgreSQL研究与原理解析

    PG:INT4 VS. FLOAT4 VS. NUMERIC

    PG:INT4 VS. FLOAT4 VS. NUMERIC 关系型数据库中数据类型是一个重要话题。PG提供很多不同类型,但并不是所有类型都相同。根据需要实现的目标,可能应用需要不同列类型。

    1.5K20发布于 2021-02-03
  • 来自专栏大模型应用

    大模型应用:中小显存适配方案:大模型微调底座选型指标与应用实现.52

    参数量与算力匹配度显存容量直接决定可加载模型的参数量上限,是选型的首要前提,8G显存设备需严格控制参数量:6B及以下参数量模型可通过INT4量化稳定加载;7B参数量模型需依赖INT4量化且显存占用接近上限 选型过程2.1 初筛候选底座结合8G显存与中文生成需求,初筛3个底座:ChatGLM-6B(INT4量化)、Qwen-7B(INT4量化)、TinyLlama-7B。 两者都支持INT4量化,适合8G显存环境 QUANT_CONFIG:INT4量化配置load_in_4bit=True:启用4位整数量化,显存占用减少约75%bnb_4bit_use_double_quant 分 结论:8G显存场景下,ChatGLM-6B(INT4量化版)综合适配性更优,兼顾显存、速度与效果。 案例结论8G显存+中文电商文案生成场景下:ChatGLM-6B(INT4量化版)为最优底座,兼顾显存适配性、生成效率与任务效果;Qwen-7B(INT4量化版)可作为备选,仅当需要长文本生成(超过2048

    15421编辑于 2026-03-21
  • 来自专栏机器之心

    4比特量化三倍加速不掉点!清华即插即用的SageAttention迎来升级

    为了克服上述缺点,SageAttention2 提出将 Q, K 量化INT4,并将 P, V 量化至 FP8 来加速 Attention。然而,这样做的挑战是很大的。 经过仔细分析后,研究团队发现主要是两个原因导致了量化注意力的不准确: (1)INT4 的数值范围相比 INT8 非常小,导致其量化误差在 Q,K 矩阵中出现一些异常值时会变得十分明显,恰好大多模型都在 这使得相比直接量化 Q, K 至 INT4 的准确度有质的改变,如下表展示了对比了该方法和直接量化 Q, K 至 INT4 在 Cogvideo 和 Llama3.1 上的端到端表现。 矩阵 Q 平滑前后的数据分布可视化的结果如下,可以发现平滑后的 Q 对 INT4 数据范围的利用度更高: (2)对 Q, K 进行 Per-thread 量化。 下图展示了 SageAttention2 的算法流程: SageAttention2 共实现了两种 Kernel,区别在于对 Q, K 进行 INT4 量化还是 INT8 量化: 此外,SageAttention2

    83510编辑于 2025-02-15
  • 来自专栏深度学习那些事儿

    大大大大大模型部署方案抛砖引玉

    INT4、INT8量化的llama https://github.com/tpoisonooo/llama.onnx.git 以ONNX的方式运行llama 量化和精度 对于消费级显卡,直接FP32肯定放不下 ,一般最基本的是FP16(llama的7B,FP16需要14G的显存,大多数的消费级显卡已经说拜拜了),而INT8和INT4量化则就很有用了,举几个例子: 对于3080显卡,10G显存,那么13B的INT4 就很有性价比,精度比7B-FP16要高很多 对于3090显卡,24G显存,那么30B的INT4可以在单个3090显卡部署,精度更高 可以看下图,列举了目前多种开源预训练模型在各种数据集上的分数和量化精度的关系 大概的结论: FP16速度最快,因为INT4和INT8的量化没有优化好(理论上INT8和INT4比FP16要快不少),而INT4的triton优化明显比huggingface中INT8的实现要好,建议使用 量化起来也不容易,QAT代价太大,PTQ校准的时候也需要很大的内存和显存,会用INT8和INT4量化 网上对于这类模型的加速kernel不是很多,可以参考的较少,很多需要自己手写 服务方式的区别 对于小模型来说

    1.7K30编辑于 2023-10-19
  • 来自专栏新智元

    1-bit大模型还能再突破!新一代BitNet架构启用4位激活值

    消融实验 图4显示了700M BitNet a4.8的训练损耗曲线,比较了使用完整的INT4/FP4量化,以及本文的混合量化和稀疏化。 完整的INT4量化会导致发散,而混合架构在训练困惑度方面明显优于完整的FP4架构。 使用RedPajama数据集中25B token,来进行模型的第一阶段训练,采用absmean和MinMax量化器分别进行完整的INT4和FP4量化。 对于完整的INT4量化,由于其输入具有更大的异常值,这里设置β = 2*mean(|X|)。 此外,对down projection的输入应用FP4量化会导致性能显著下降,而将INT4激活与STE一起使用会导致发散。

    39400编辑于 2025-02-15
  • 来自专栏Elastic Stack专栏

    突破性进展:在 Elasticsearch 和 Lucene 中应用更好的二进制量化 (BBQ) 实现高效向量搜索

    虽然向量本身存储为单比特值,但查询仅量化int4。这显著提高了搜索质量,同时不会增加存储成本。按位操作实现快速搜索。查询向量被量化并转换为允许高效按位操作的方式。 一旦有了邻居,多样性和反向链接评分可以使用先前的 int4 量化值完成。合并完成后,临时文件会被删除,只保留比特量化向量。 因此,文档值被比特量化,查询向量被量化int4。更有趣的是这些量化向量如何转换以实现快速查询。以我们上面的示例向量为例,我们可以将其量化为围绕质心的 int4。 最好直观地展示一下发生了什么:这里,每个 int4 量化值的相对位置比特被移位到单个字节。注意,所有第一个比特首先被打包在一起,然后是第二个比特,以此类推。但这实际上如何转换为点积呢? 很有趣的是,BBQ 和 int4 在这个基准测试中步调一致。

    1.1K11编辑于 2024-11-18
  • [大模型]XVERSE-7B-chat Transformers 推理

    snapshot_download('xverse/XVERSE-7B-Chat', cache_dir='/root/autodl-tmp', revision='master') Transformers 推理以及 INT8、INT4 trust_remote_code=True).cuda() model.generation_config = GenerationConfig.from_pretrained(model_path) # 使用 INT8、INT4 # 添加回答到历史 history.append({"role": "assistant", "content": response}) XVERSE-7B 默认是支持 INT8 和 INT4 类型的量化,这样在推理的适合可以大幅降低模型加载所需的显存。 4指的是 INT4 量化,同理8则表示 INT8 量化INT4 量化推理的运行效果如下:

    17910编辑于 2025-07-21
  • 来自专栏算法之名

    量化交易

    针对可交易的投资商品,理性地运用逻辑分析和回归统计判断市场趋势称为量化交易。 量化策略 量化策略就是赚钱"因子",可以分为基本面和技术面。

    45010编辑于 2024-08-21
  • 来自专栏GPUS开发者

    NVIDIA TensorRT 10.0大升级!可用性、性能双飞跃,AI模型支持更强大!

    其中,性能方面的亮点包括支持块量化INT4仅权重量化(WoQ)以及改进的内存分配选项。这些新功能不仅提升了性能,还使得大型模型的部署变得更加灵活。 INT4仅权重量化(WoQ) TensorRT 10.0现在支持使用INT4进行权重压缩,这一特性与硬件架构无关,具有广泛的适用性。 在WoQ中,GEMM的权重被量化INT4精度,而GEMM的输入数据和计算操作则保持在高精度状态。TensorRT的WoQ内核会从内存中读取4位权重,并在进行高精度点积计算之前对其进行去量化处理。 与其他仅支持无数据量化(WoQ)或基础技术的量化工具包相比,Model Optimizer提供了包括INT8 SmoothQuant和INT4 AWQ在内的高级校准算法。 它提供了一个简单易用的Python API,该API融合了如FP8和INT4 AWQ等LLM推理领域的最新技术,同时确保了推理的准确性不受影响。

    2.5K00编辑于 2024-05-27
  • 来自专栏图像处理与模式识别研究所

    图像量化

    from skimage import data from matplotlib import pyplot as plt image=data.coffee()#原始图像 ratio=128#设置量化比率 range(image.shape[2]):#图片通道数 image[i][j][k]=int(image[i][j][k]/ratio)*ratio#对图像中的每个像素进行量化 本文的图像量化过程是将256级的彩色图像量化到2级的彩色图像。 量化等级越多,量化比率越低,所得图像层次越丰富,灰度分辨率越高,图像质量好,但数据量大;量化等级越少,量化比率越高,图像层次欠丰富,灰度分辨率低,可能会出现假轮廓,图像质量变差,但数据量较小。 图像量化的作用是在一定主观保真图像质量的前提下,丢掉对视觉影响不大的信息,以获得较高的压缩比。

    77620编辑于 2022-05-28
  • Python 量化

    Python 量化是指利用 Python 编程语言以及相关的库和工具来进行金融市场数据分析、策略开发和交易执行的过程。 Python 由于其简洁、易学、强大的生态系统和丰富的金融库而成为量化交易的首选编程语言之一。 量化交易在金融领域得到广泛应用,它允许交易者通过系统性的方法来制定和执行交易策略,提高交易效率和决策的科学性。 量化主要是通过数学和统计学的方法,利用计算机技术对金融市场进行量化分析,从而制定和执行交易策略。 更多 Python 量化内容可以查看:Python 量化交易。 实例应用 接下来我们先看一个 Python 量化简单的应用实例,可以使用移动平均策略,使用雅虎金融数据来实现。 该策略的基本思想是通过比较短期和长期移动平均线来生成买入和卖出信号。

    24710编辑于 2025-12-16
领券