搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏GiantPandaCV
INT8量化训练
【GiantPandaCV导读】本文聊了两篇做INT8量化训练的文章，量化训练说的与quantization-aware Training有区别，量化训练指的是在模型训练的前向传播和后向传播都有INT8 Pytorch实现卷积神经网络训练量化(QAT) 一、Distribution Adaptive INT8 ? Unified INT8也是类似minimize量化后梯度与原来梯度的量化误差Error的思想，与Distribution Adaptive INT8不同的是通过收敛性分析方程，发现可以通过降低学习率和减少梯度量化误差 Unified INT8也是类似minimize量化后梯度与原来梯度的量化误差Error的思想，Unified INT8是通过收敛性分析方程，发现了可以通过降低学习率和减少梯度量化误差。知乎链接：（量化 | INT8量化训练）https://zhuanlan.zhihu.com/p/364782854
1.4K30发布于 2021-04-30
来自专栏模型压缩
INT8量化训练
【导读】本文聊了两篇做INT8量化训练的文章，量化训练说的与quantization-aware Training有区别，量化训练指的是在模型训练的前向传播和后向传播都有INT8量化。 Pytorch实现卷积神经网络训练量化(QAT) 一、Distribution Adaptive INT8 文章的核心idea是：Unified INT8发现梯度的分布不遵从一个分布即不能像权重一样归于高斯分布，Distribution Adaptive INT8认为梯度可以channel-wise看，分成两种分布，一个高斯分布，一个是倒T形分布，这样去minimize量化后梯度与原来梯度的量化误差Error Unified INT8也是类似minimize量化后梯度与原来梯度的量化误差Error的思想，与Distribution Adaptive INT8不同的是通过收敛性分析方程，发现可以通过降低学习率和减少梯度量化误差 Unified INT8也是类似minimize量化后梯度与原来梯度的量化误差Error的思想，Unified INT8是通过收敛性分析方程，发现了可以通过降低学习率和减少梯度量化误差。
1.6K00发布于 2021-06-06
来自专栏机器学习AI算法工程
PyTorch模型静态量化、保存、加载int8量化模型
所以，模型量化就是将训练好的深度神经网络的权值，激活值等从高精度转化成低精度的操作过程，例如将32位浮点数转化成8位整型数int8，同时我们期望转换后的模型准确率与转化前相近。 PyTorch模型训练完毕后静态量化、保存、加载int8量化模型 1. pth_to_int.py是对Pytorch的float32模型转成int8模型。 evaluate_model.py里加载int8模型进行推理。 3. 模型静态量化模型静态量化主要代码如下，读取float32模型，然后转成int8模型保存为openpose_vgg_quant.pth。完整代码可以从pth_to_int.py文件中看到。加载int8模型不能和之前加载float32模型一样，需要将模型通过prepare（） , convert（）操作转成量化模型，然后load_state_dict加载进模型。 5.
8.5K42编辑于 2023-02-28
来自专栏机器学习、深度学习
CNN模型 INT8 量化实现方式（一）
当前CNN模型基本都是 float32，将其转换为 INT8 可以降低模型大小，提升速度，精度降低的也不太多。那么在实际中如何实现这个量化了？这里主要涉及两个问题：1）就是 int8量化；2）就是 int8 模型的使用基于Caffe-Int8-Convert-Tools进行caffe模型转int8量化在 NCNN 框架上运行 https ://blog.csdn.net/u014644466/article/details/83278954 首先是基于 Caffe-Int8-Convert-Tools 这个工具进行 int8量化 https://github.com/BUG1989/caffe-int8-convert-tools int8 模型的使用 How to use Int8 inference https://github.com ::Net squeezenet; squeezenet.set_conv_model(CONV_INT8); //set the Int8 mode squeezenet.load_param
5.2K20发布于 2019-05-26
来自专栏机器学习、深度学习
CNN模型 int8量化实现方式（二）
那下面简单的命令就可以完成卸载了 sudo pip uninstall tensorflow_gpu sudo pip3 uninstall tensorflow_gpu 这里介绍一个完全基于 Tensorflow 的模型量化方法 /convert_weights_pb.py 2）完全基于 Tensorflow 的量化 https://blog.csdn.net/u011961856/article/details/76736103 1.源码编译安装tensorflow 可参考 https://blog.csdn.net/u011961856/article/details/76725411 2 编译量化工具 sudo bazel build tensorflow/tools/quantization:quantize_graph 3.模型量化: sudo bazel-bin/tensorflow/tools/quantization ，处于开发阶段，tensorflow lite 是应该已经支持量化模型的运行，而 tensorflow 本身的支持很有限，貌似正在集成
1.9K40发布于 2019-05-26
来自专栏叶子的开发者社区
【yolov5】onnx的INT8量化engine
然后在yolov5_tensorrt_int8_tools的convert_trt_quant.py 修改如下参数 BATCH_SIZE 模型量化一次输入多少张图片 BATCH 模型量化次数 height INT8的例子 https://github.com/NVIDIA/TensorRT/tree/master/samples/python/int8_caffe_mnist 如果足够NB是可以根据官方的这个例子修改一下直接实现 onnx的INT8量化的但是奈何我连半桶水都没有，只有一滴水，但是这个例子中的tensorrt版本是新的，于是我尝试将上面那位大佬的代码修改为使用新版的tensorrt 居然成功了？？！! , 'Error: a calibration_stream should be provided for int8 mode' config.int8_calibrator = Calibrator(calibration_stream, calibration_table_path) print('Int8 mode enabled')
1.1K70编辑于 2023-11-13
来自专栏活动
DeepSeek 量化压缩实战：INT8 精度保持方案详解
其中，INT8 量化将模型参数从 32 位浮点数（FP32）转换为 8 位整数（INT8），显著减少了模型的存储空间和计算量。其优势包括：存储空间减少：INT8 参数占用的存储空间仅为 FP32 的 1/4。计算速度提升：整数运算通常比浮点运算更快，尤其是在硬件支持的情况下。卷积层 2 32 64 3x3 1 1 ReLU 池化层 2 2x2 2 全连接层 1 64x8x8 # 量化压缩示例代码import tensorflow_model_optimization as tfmot# 应用 INT8 量化quantize_annotate = tfmot.quantization.keras.quantize_annotatequantize_scope = tfmot.quantization.keras.quantize_scope# 定义量化配置quantize_config = tfmot.quantization.keras.Default8BitQuantizeConfig
1.6K20编辑于 2025-03-27
来自专栏我爱计算机视觉
YOLO系列模型的部署、精度对齐与int8量化加速
详解TensorRT量化的三种实现方式 TensorRT量化的三种实现方式包括trt7自带量化、dynamic range api，trt8引入的QDQ算子。 engine和问题engine进行对比，我们发现是一些层的int8量化会出问题，由此找出问题量化节点解决。实践证明，我们采用上述配置的分离PTQ量化在yolov8上可以取得基本不掉点的int8量化精度。针对YoloV6这种难量化模型，分别采用部分量化和QAT来弥补量化精度损失在部分量化阶段，我们采用量化敏感层分析技术来判断哪些层最需要恢复原始精度，给出各种metric的量化敏感层实现。原文链接：https://www.hbblog.cn/%E6%A8%A1%E5%9E%8B%E9%83%A8%E7%BD%B2/mmyolo_tensorrt/ END
1.1K20编辑于 2023-11-07
来自专栏AI SPPECH
129_量化技术：INT8与动态量化 - 推导压缩的精度损失公式
INT8相比FP32能够减少75%的存储空间，但同时也会带来一定的精度损失。 2.1.2 量化的数学基础量化过程本质上是将浮点数值映射到整数域的过程。和min分别是浮点数的最大值和最小值，b是量化后的位数（如INT8为8位）。 INT8量化技术详解 3.1 INT8量化原理 INT8量化是指将32位浮点数映射到8位整数的过程。在LLM中，主要对权重和激活值进行INT8量化。实际实现与部署 7.1 使用PyTorch进行模型量化 PyTorch提供了完整的量化工具链，支持INT8量化和动态量化。 9.2 实验结果量化方法位宽模型大小推理速度精度损失内存占用 FP16基线 16 140GB 100% 0% 140GB INT8静态量化 8 70GB 185% 2.3% 70GB INT8
58910编辑于 2025-11-16
来自专栏计算机视觉战队
Yolo系列模型的部署、精度对齐与int8量化加速
当时想做这个的目的是是为了总结一下目标检测模型的量化加速到底会遇到什么坑，只是没想到不量化坑都会很多。 2、详解TensorRT量化的三种实现方式 TensorRT量化的三种实现方式包括trt7自带量化、dynamic range api，trt8引入的QDQ算子。 engine和问题engine进行对比，我们发现是一些层的int8量化会出问题，由此找出问题量化节点解决。实践证明，我们采用上述配置的分离PTQ量化在yolov8上可以取得基本不掉点的int8量化精度。 4、针对YoloV6这种难量化模型，分别采用部分量化和QAT来弥补量化精度损失在部分量化阶段，我们采用量化敏感层分析技术来判断哪些层最需要恢复原始精度，给出各种metric的量化敏感层实现。
1.5K20编辑于 2023-11-08
来自专栏Jungle笔记
int8 & int8，你栽过这样的跟头吗？
本来和师弟在讨论某个网络在量化过程中由于出现负向饱和造成误差的问题，结果师弟这一番言论直接震惊到我了。这篇文章介绍了关于有符号数与无符号数的基础知识：以int8_t和uint8_t为例，分别表示有符号的8位整型和无符号的8位整型。对无符号数uint8_t：位全为1表示最大的正数，为2^8-1=255 位全为0表示最小数，为0 对有符号数int8_t：其最高位（最左边的位）是符号位，符号位为0表示正数，符号位为1表示负数，该位的权重为 t a = 200; int8_t b = 2; int8_t c = a * b; printf("c = %d\n", c); uint8_t d = 240; 压缩可执行程序大小、减少网络传输字节数量、压缩权重范围、神经网络量化……各式各样的应用都追求更小的size。以加快程序运行速度、减少占用的存储空间。
1.8K20编辑于 2022-07-24
来自专栏AI人工智能
模型量化大揭秘：INT8、INT4量化对推理速度和精度的影响测试
本文将基于我在多个实际项目中的量化实践经验，深入剖析INT8和INT4量化技术的原理、实现方法和性能表现。 INT8量化技术深入实践2.1 INT8量化的硬件优势图1：INT8量化策略选择流程图在我的测试中，INT8量化在现代CPU和GPU上都有显著的性能提升：import timeimport torchimport INT8量化的性能提升。在我的实际测试中，INT8量化通常能够实现1.5-2倍的推理速度提升和4倍的模型压缩比。量化优化关键词标签#模型量化 #INT8量化 #INT4量化 #推理优化 #AI部署
2.1K21编辑于 2025-08-20
来自专栏GiantPandaCV
深度学习算法优化系列十四 | OpenVINO Int8量化文档翻译(Calibaration Tool)
前言在2020年以前，OpenVINO(这里以OpenVINO2019年最新的一个版本为例)的Int8量化工具实现在openvino_2019.3.379\deployment_tools\tools 要做Int8量化首先需要将你需要部署的模型Caffe/Pytorch/Tensorflow转化为OpenVINO的IR中间模型。 Python* Calibaration Tool 介绍校准工具可量化给定的FP16或FP32模型，并在使模型输入保持原始精度的情况下生成低精度的8位整数（INT8）模型。要了解INT8有关推理的好处的更多信息，请参考./docs/IE_DG/Int8Inference.md)。注意：INT8模型现在只被CPU plugin所支持。有关支持的配置的完整列表，请参见. 因此，所有层均视为在INT8中执行。使用此模式可以了解将模型转换为INT8精度的潜在性能提升，并得出有关运行标准模式例程的结论。
1.5K30发布于 2020-02-27
来自专栏腾讯开源的专栏
ncnn发布20210507版本，int8量化推理大幅优化超500%
仰赖ncnn社区开发者的贡献，ncnn在2019年年初便已实现int8模型量化和推理。但因后来失去社区开发者的持续投入，ncnn的int8量化推理效率迟迟没有加速。最终，在int8量化和推理加速上，ncnn提供了一个成品，给出了一个答案。 table完全不变 int8模型量化流程完全不变 ncnn int8量化工具(ncnn2table)新特性支持 kl aciq easyquant 三种量化策略支持多输入的模型量化支持RGB/RGBA /BGR/BGRA/GRAY输入的模型量化大幅改善多线程效率离线进行(反量化-激活-量化)->(requantize)融合，实现端到端int8量化推理 ncnn int8量化推理新特性 conv/convdw /fc 量化推理支持附带任意激活层 int8特征数据自动转换为elempack=8内存布局，提高访存效率实现全部pack1/pack1to4/pack4/pack8to4等的int8 sgemm kernel
1.6K40发布于 2021-05-10
来自专栏GiantPandaCV
深度学习算法优化系列三 | Google CVPR2018 int8量化算法
从上面的介绍引出这篇论文的目的，即是要将乘法的输入：权重和激活值都量化成比较小的位宽，即int8量化。训练后量化比较容易理解，即将训练后的模型中的权重从float32量化到int8，并以int8的形式保存，但在实际推理时，还需要反量化为浮点数类型进行计算。而训练中量化意思是在训练的过程中引入伪量化操作，即在前向传播的时候，采用量化后的权重和激活值，但在反向传播的时候仍然对float类型的权重进行梯度下降，前向推理时全部使用int8的方式进行计算。对于int8量化，就是8-bit整数，对于B-bit量化，q就是B-bit的实数，对于有bias的情况，就固定量化为·32-bit的实数。 3.1.3 零点的有效处理在上面的公式(4)中因为两个矩阵都需要减去各自的零点Z值，减法运算后得到的值可能会突破int8范围，到时候就需要int16来存储，但整个运算为了控制在int8的类型下计算，论文做了下面的变换
3K30发布于 2019-12-27
来自专栏叶子的开发者社区
【YOLOv5】【模型压缩与加速】【量化】FP32、FP16、INT8
量化是将模型参数的存储类型从高精度存储降到低精度存储，从而达到减小模型体积大小、加快模型推理速度的效果。 INT8量化我们还可以进一步量化，我们可以将模型量化为int8位存储，但是由于yolov5自带的export的int8导出效果好像并不好，因此int8量化要复杂一下。我们首先拿到onnx格式的模型，这个我们在FP32量化的时候已经拿到了，在网上搜罗了一番，勉强可以找到一个将onnx转换为int8存储的engine的代码，但是由于这个代码有点年份了，使用到的TensorRT 于是，经过一晚上加一下午代码的愉悦修改具体请看【yolov5】onnx的INT8量化engine-CSDN博客终于把代码给改对了，最后拿到的模型大小只有4MB。但是int8的推理速度和FP16的差不多。 Int8目标检测的效果也要差上一些，从图中可以看到有些鸡没有被检测到，可见改用int8存储后的模型精度要差上一些。
3.3K30编辑于 2023-11-13
来自专栏全栈程序员必看
matlab int8 矩阵,unit8_matlab数据类型转换——int8转换成unit8「建议收藏」
在一个驱动程序中看到uint16，uint32，unit8，int8… uint16 ：无符号16bit整数， uint32：无符号32bit整数， unit8：无符号8bit整数， int8：有符号8bit matlab图像处理关于unit8的问题为了节省存储空间，matlab为图像提供了特殊的数据类型uint8(8位无符号整数)，以此方式存储的图像称作8位图像。 precision floating-point numeric array float — Double or single precision floating-point numeric array int8 double 内存不足，说明你的数据量太大了，一个double是8字节，值uint8的8倍。 matlab数据类型转换——int8转换成unit8 最简单的方法是把I改为double型后做+128计算再转为uint8。
4.1K10编辑于 2022-09-30
来自专栏Lauren的FPGA
学习笔记：深度学习与INT8
实践证明，在某些CNN模型中，采用INT8与采用浮点数据相比，精度损失很小。这里我们将关注点放在INT8的具体实现上。就CNN模型而言，INT8主要用在卷积层。 DSP48E2的结构如下图所示（图片来源：wp486, Figure 1），这里我们将利用一个DSP48E2同时实现两个INT8乘法，前提条件是这两个INT8乘法具有一个相同的因子，也就是同时实现axb DSP48E2的端口A为27位，将其高9位填充数据a（这里对a做了符号位扩展，由8位变为9位），低18位填充0。DSP48E2的D端口为27位，将数据d进行符号位扩展，低9位填充数据d。 DSP48E2的B端口为18位，将数据b进行符号位扩展，低8位填充数据b。最终，DSP48E2的P端口（48位）将输出ab（或ab-1）和db。 ? 在实际应用中，充分利用DSP48E2实现两个INT8相乘可有效节省乘法器资源，提高乘法器的利用率。 ?
2K21发布于 2020-06-30
来自专栏GiantPandaCV
深度学习算法优化系列二十二 | 利用TensorRT部署YOLOV3-Tiny INT8量化模型
官方例子中提供了一个MNIST数据集的INT8量化，过程也是先用nvcaffeparser解析Caffe模型然后直接做量化并将原始模型序列化为TRT文件以供后面的图像推理。所以，我这里走的路就是直接解析ONNX模型->INT8量化->序列化为TRT文件->完成推理。 3. 首先宏观的说一下，TensorRT对一个模型进行全INT8量化包含权重和激活值两大部分，对于权重采用的是直接非饱和量化，也就是说直接统计权重的最大值和最小值就可以完成量化。因此，在INT8量化之前我们首先需要准备一下校准集。这里怎么准备呢？量化的Table文件以及INT8量化后的TRT序列化文件，后面就可以直接加载这个文件进行推理了。
1.9K21发布于 2020-04-15
来自专栏大模型应用
大模型应用：大模型量化：INT4与INT8核心差异、选型指南及代码实现.53
在众多量化方案中，INT4 和 INT8 是应用最广泛的两种低比特量化技术。INT8 以“精度稳定、生态成熟”著称，INT4 则凭借“极致压缩、速度领先”成为边缘设备和消费级硬件的首选。）图6：量化误差分析计算并比较INT8和INT4的量化误差，显示INT4平均误差显著高于INT8，误差分布直方图量化展示差异核心要点：1. INT4的量化误差是INT8的15-20倍，但存储节省75%三、INT4 与 INT8 量化选型选择哪种量化方案，核心取决于硬件条件和任务精度要求，以下是具体的决策逻辑：1. INT8 量化实现INT8 量化的优势是生态成熟、精度稳定，无需额外优化策略即可达到理想效果，按以下配置直接运行即可;# 1. 配置INT8量化参数int8_quant_config = BitsAndBytesConfig( load_in_8bit=True, # 启用INT8量化
59754编辑于 2026-03-23

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

INT8量化训练

INT8量化训练

PyTorch模型静态量化、保存、加载int8量化模型

CNN模型 INT8 量化实现方式（一）

CNN模型 int8量化实现方式（二）

【yolov5】onnx的INT8量化engine

DeepSeek 量化压缩实战：INT8 精度保持方案详解

YOLO系列模型的部署、精度对齐与int8量化加速

129_量化技术：INT8与动态量化 - 推导压缩的精度损失公式

Yolo系列模型的部署、精度对齐与int8量化加速

int8 & int8，你栽过这样的跟头吗？

模型量化大揭秘：INT8、INT4量化对推理速度和精度的影响测试

深度学习算法优化系列十四 | OpenVINO Int8量化文档翻译(Calibaration Tool)

ncnn发布20210507版本，int8量化推理大幅优化超500%

深度学习算法优化系列三 | Google CVPR2018 int8量化算法

【YOLOv5】【模型压缩与加速】【量化】FP32、FP16、INT8

matlab int8 矩阵,unit8_matlab数据类型转换——int8转换成unit8「建议收藏」

学习笔记：深度学习与INT8

深度学习算法优化系列二十二 | 利用TensorRT部署YOLOV3-Tiny INT8量化模型

大模型应用：大模型量化：INT4与INT8核心差异、选型指南及代码实现.53

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐