用于动态范围量化的tensorflow文档指出:
推理时,权值由8位精度转换为浮点,并使用浮点核进行计算.此转换只进行一次并缓存以减少延迟。
此外,在动态范围量化中,激活总是存储在浮点数32中,但是在处理过程中它们被转换为8位整数,在处理完成后返回到浮点。
我感到困惑的是,如果在推理时将权重转换为float32,那么量化是如何完成的呢?
发布于 2021-07-26 12:36:59
来自https://www.tensorflow.org/lite/performance/post_training_quant的报价
此外,
还支持动态量化和反量化激活,以便:
在可用时使用量化的内核来加快实现速度。图中不同部分的浮点核与量化核的混合。
如果内核具有支持量化的优化路径,则对浮点激活进行量化,以便与量化的权重一起应用。
否则,激活将保持在浮点数中,权值将转换为浮点数以进行推理。
https://stackoverflow.com/questions/68522115
复制相似问题