首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习、深度学习

    模型加速

    本文的思路比较简单,裁剪+量化一体训练模型分三个步骤: 1) Clipping 裁剪,将网络中的权重系数值接近0 的权重全部置零,当然这种置零是临时性的,后面的训练迭代根据实际情况调整。

    1.2K30发布于 2019-05-26
  • 来自专栏计算机视觉战队

    Yolo系列模型的部署、精度对齐与int8量化加速

    当时想做这个的目的是是为了总结一下目标检测模型的量化加速到底会遇到什么坑,只是没想到不量化坑都会很多。 2、详解TensorRT量化的三种实现方式 TensorRT量化的三种实现方式包括trt7自带量化、dynamic range api,trt8引入的QDQ算子。 engine和问题engine进行对比,我们发现是一些层的int8量化会出问题,由此找出问题量化节点解决。 weight采用MinMaxObserver,在PTQ过程中,weight的校准前向传播一次,activation的校准需要多次 因此我们将weight的PTQ过程和activation的PTQ过程分开进行,加速 实践证明,我们采用上述配置的分离PTQ量化在yolov8上可以取得基本不掉点的int8量化精度。

    1.5K20编辑于 2023-11-08
  • 来自专栏我爱计算机视觉

    YOLO系列模型的部署、精度对齐与int8量化加速

    写这篇文章的目的是为宣传我在23年初到现在完成的一项工作---Yolo系列模型在TensorRT上的部署与量化加速,目前以通过视频的形式在B站发布(不收费,只图一个一剑三连)。 video/BV1Ds4y1k7yr/ Github开源地址(求star):https://github.com/thb1314/mmyolo_tensorrt/ 当时想做这个的目的是是为了总结一下目标检测模型的量化加速到底会遇到什么坑 weight采用MinMaxObserver,在PTQ过程中,weight的校准前向传播一次,activation的校准需要多次 因此我们将weight的PTQ过程和activation的PTQ过程分开进行,加速 实践证明,我们采用上述配置的分离PTQ量化在yolov8上可以取得基本不掉点的int8量化精度。 原文链接:https://www.hbblog.cn/%E6%A8%A1%E5%9E%8B%E9%83%A8%E7%BD%B2/mmyolo_tensorrt/ END

    1.1K20编辑于 2023-11-07
  • 智谱AI开源GLM模型8加速推理与全球布局

    智谱AI的开源实力展示:极速GLM模型与潜在IPO前的全球扩张中国北京 – 2025年4月15日 – 作为一项彰显其技术实力和全球雄心的战略举措,并为潜在的未来IPO铺平道路,中国人工智能公司智谱AI宣布全面开源其下一代通用语言模型 此次发布包括先进的GLM-4系列和突破性的GLM-Z1推理模型,这些模型拥有前所未有的推理速度,并推出了专用的国际域名Z.ai。 此次开源的模型组合还包括基础模型GLM-4-32B-0414,该模型专门针对代理能力进行了增强,在工具使用、网络搜索和代码生成方面具有卓越性能。 这些紧凑而强大的模型在数学推理和通用任务中表现出色,为资源受限的环境提供了高效的解决方案,进一步拓宽了智谱AI的吸引力。所有模型均在宽松的MIT许可证下发布。 对于企业客户,智谱AI继续提供其强大的模型即服务(MaaS)平台,该平台现已集成新开源的基础模型和推理模型

    1.2K180编辑于 2026-03-30
  • 来自专栏机器学习与统计学

    深度学习模型加速:Pytorch模型转TensorRT模型

    经过一段时间的调研与实践,算是对模型加速这方面有了一定的了解,便促成了此文。 1、如何实现模型加速? 既然要提升效率,实现模型加速,那么具体应该怎么做呢? 目前常用的深度学习模型加速的方法是:将pytorch/tensorflow等表示的模型转化为TensorRT表示的模型。 pytorch和tensorflow我们了解,那么TensorRT是什么呢? TensorRT是NVIDIA公司出的能加速模型推理的框架,其实就是让你训练的模型在测试阶段的速度加快,比如你的模型测试一张图片的速度是50ms,那么用tensorRT加速的话,可能只需要10ms。 我将实现深度学习模型加速整体分成了两部分: 模型转换部分。实现 Pytorch/Tensorflow Model -> TensorRT Model 的转换。 模型推断(Inference)部分。 深度学习模型加速是一个繁杂的任务,需要注意的是,本文并没有对各个内容进行详细的讲解,更多的是提供一种整体的框架、流程,并给出相应的解决指南,这一点从文中嵌入的各个链接也可以看出。

    1.8K21编辑于 2024-06-11
  • 来自专栏机器学习、深度学习

    模型加速--Slimmable neural networks

    Slimmable neural networks ICLR2019 Code and models will be released 可瘦身的神经网络,针对不同硬件和运行环境,可以快速提供与之相适应的CNN模型来完成任务 硬件配置好的,给一个大模型,硬件配置差的,给一个小点的模型。 同一个网络模型在不同的设备上运算时间也是不一样的。 反过来,对于不同的硬件设备及运行环境,我们能否快速的提供与之相适应的CNN网络模型来完成相关的任务了? ? 4分支网络和 8 分支网络性能对比 ? ?

    66530发布于 2019-05-26
  • 来自专栏GoCoding

    TVM 加速模型,优化推断

    TVM 是一个开源深度学习编译器,可适用于各类 CPUs, GPUs 及其他专用加速器。它的目标是使得我们能够在任何硬件上优化和运行自己的模型。 不同于深度学习框架关注模型生产力,TVM 更关注模型在硬件上的性能和效率。 本文只简单介绍 TVM 的编译流程,及如何自动调优自己的模型。 [Task 8/25] Current/Best: 50.04/ 331.82 GFLOPS | Progress: (10/10) | 2.64 s Done. products/overview.html [7]start-ai-compiler: https://github.com/ikuokuo/start-ai-compiler#%E7%AC%94%E8% AE%B0 [8]2020 / The Deep Learning Compiler: A Comprehensive Survey: https://arxiv.org/abs/2002.03794

    97920编辑于 2022-05-27
  • 来自专栏DeepHub IMBA

    使用FP8加速PyTorch训练

    (我们这里只介绍如何使用FP8,不会介绍FP8具体的理论知识) 随着人工智能模型变得越来越复杂,训练它们所需的机器也越来越复杂。Nvidia H100 GPU据称支持“前所未有的性能和可扩展性”。 第二个是p5仍然是可行的,但是需要对模型进行调整,充分利用它的潜力。 FP8与Transformer Engine的集成 PyTorch(版本2.1)不包括FP8数据类型。 为了将我们的脚本编程为使用FP8,我们将使用Transformer Engine (TE),这是一个用于在NVIDIA gpu上加速Transformer模型的专用库。 最后一个修改是用te包裹模型前向传递。Fp8_autocast上下文管理器。 所以可能需要调整底层FP8机制(例如,使用TEapi),调整一些超参数,和/或将FP8的应用限制在模型的子模型(一部分)。最坏的可能是尽管进行了所有尝试,模型还是无法与FP8兼容。

    98440编辑于 2023-11-20
  • 来自专栏计算机视觉战队

    预告 | 模型加速压缩——精度无损

    今天主要是预先告知大家下一期我们发送的内容,主要是模型压缩!如果你们有想了解或深入熟悉的框架,可以在留言处告诉我们,我们也会第一时间把大家希望的分享出来,我们一起学习讨论,共同进步! 预告 ? 因此这些方法的性能通常取决于给定的预训练模型。对基本操作和体系结构的改进将使它们走得更远。 虽然Xception、MobileNets、MobileNetV2、MobileNetV3、ShuffleNet和ShuffleNetV2等轻量级模型以很少的FLOPs获得了很好的性能,但是它们特征图之间的相关性和冗余性一直没有得到很好的利用

    40510发布于 2020-06-06
  • 来自专栏数据科学(冷冻工厂)

    PyTorch | 加速模型训练的妙招

    引言 提升机器学习模型的训练速度是每位机器学习工程师的共同追求。训练速度的提升意味着实验周期的缩短,进而加速产品的迭代过程。同时,这也表示在进行单一模型训练时,所需的资源将会减少。

    48810编辑于 2024-07-16
  • 来自专栏AI研习社

    加速BERT模型:从架构优化、模型压缩到模型蒸馏

    不过如果能够加速,当然也是好的,因为迭代越快,你就能越早地解决你的问题。 这在神经网络中并不陌生,其他领域(例如计算机视觉)以前也有相同的问题,并且已经开发了几种压缩和加速神经网络模型的方法。 量化 会降低模型权重的数值精度。通常情况下,使用 FP32(32 位浮点)来训练模型,然后可以将其量化为 FP16(16 位浮点),INT88 位整数),甚至将其量化为 INT4 或 INT1。 尽管目前它还处于实验阶段,但我们已经可以使用它了,因为在其教程中提到他们已经能够将动态量化应用于将模型权重转换为 INT8 的 LSTM 语言模型 [15]。 需要强调,以上所介绍的方法并不互相冲突,所以我们期待能够将这些方法协同起来使用来加速 BERT 模型(或其他相似模型)。

    3.4K51发布于 2019-11-01
  • 来自专栏CSDN博客

    微调Whisper模型加速推理

    另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。 微调完成之后会有两个模型,第一个是Whisper基础模型,第二个是Lora模型,需要把这两个模型合并之后才能之后的操作。 python infer.py --audio_path=dataset/test.wav --model_path=models/whisper-large-v2-finetune 加速预测 众所周知 ,直接使用Whisper模型推理是比较慢的,所以这里提供了一个加速的方式,主要是使用了CTranslate2进行加速,首先要转换模型,把合并后的模型转换为CTranslate2模型。 --output_dir models/whisper-large-v2-ct2 --copy_files tokenizer.json --quantization float16 执行以下程序进行加速语音识别

    3K30编辑于 2023-04-30
  • 来自专栏AI科技大本营的专栏

    8比特数值也能训练模型?商汤提训练加速新算法丨CVPR 2020

    该工作通过将网络的输入、权重和梯度量化到8比特来加速网络的前向传播和反向传播过程,缩短卷积神经网络训练时间。 上图的上半部分展示了标准的卷积神经网络量化计算前向过程,该过程被广泛应用在INT8部署加速中。 INT8训练的一个核心的加速点在于卷积计算的反向过程,上图展示了INT8训练中卷积计算在反向传播过程中的计算细节。 2、误差敏感的学习率调节:在错误的方向上尽量少更新 根据上述的理论分析,降低学习率能够有助于模型量化训练的收敛。 实测结果表明,使用INT8卷积计算的前向和后向过程相比于浮点计算有明显的加速,其中前向过程平均加速1.63倍,后向过程平均加速1.94倍。如下图所示: ?

    1.7K10发布于 2020-04-14
  • 来自专栏叶子的开发者社区

    【YOLOv5】【模型压缩与加速】【量化】FP32、FP16、INT8

    再看看16位的模型加速效果 python detect.py --weights runs/train/exp4/weights/FP16.engine --source ikunData/images 此时的模型已经从32位的4.9ms推理速度提高到了2.3ms,加速效果明显。 INT8量化 我们还可以进一步量化,我们可以将模型量化为int8位存储,但是由于yolov5自带的export的int8导出效果好像并不好,因此int8量化要复杂一下。 于是,经过一晚上加一下午代码的愉悦修改 具体请看【yolov5】onnx的INT8量化engine-CSDN博客 终于把代码给改对了,最后拿到的模型大小只有4MB。   但是int8的推理速度和FP16的差不多。 Int8目标检测的效果也要差上一些,从图中可以看到有些鸡没有被检测到,可见改用int8存储后的模型精度要差上一些。

    3.3K30编辑于 2023-11-13
  • 来自专栏Python绿色通道

    8个 可以让 Python 加速的 tips

    本文对一些 Python 代码加速运行的技巧进行整理。 0. 代码优化原则 本文会介绍不少的 Python 代码加速运行的技巧。在深入代码优化细节之前,需要了解一些代码优化基本原则。 result = computeSqrt(size) main() 在第 1 节中我们讲到,局部变量的查找会比全局变量更快,因此对于频繁访问的变量sqrt,通过将其改为局部变量可以加速运行 square_list = [x * x for x in value] # 避免无意义的复制 main() 另外一种情况是对 Python 的数据共享机制过于偏执,并没有很好地理解或信任 Python 的内存模型 sum def main(): size = 10000 for _ in range(size): sum = computeSum(size) main() 8.

    82220发布于 2021-11-10
  • 来自专栏深度学习自然语言处理

    剪枝乱炖 | 模型加速与压缩

    ---- 作者:Colorjam https://zhuanlan.zhihu.com/p/97198052 剪枝是模型压缩的一个子领域,依据剪枝粒度可以分为非结构化/结构化剪枝,依据实现方法可以大致分为基于度量标准 剪枝之外 提升精度: 利用剪枝的方式来提升模型精度,比如DSD: Dense-Sparse-Dense Training for Deep Neural Networks(ICLR2017)利用非结构化剪枝 总结 一脉梳理下来感觉做纯的剪枝感觉很难了,对比人工设计的结构和准则,NAS出来的模型可以又小巧精度又高,剪枝也逐渐受其影响快、准、狠地寻找结构。 Reference 闲话模型压缩之网络剪枝(Network Pruning)篇 技术文章配图指南 下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  

    1.2K20编辑于 2022-03-04
  • 来自专栏机器学习AI算法工程

    onnx实现对pytorch模型推理加速

    Pytorch 模型转onnx 当提到保存和加载模型时,有三个核心功能需要熟悉: 1.torch.save:将序列化的对象保存到disk。这个函数使用Python的pickle 实用程序进行序列化。 3.torch.nn.Module.load_state_dict:使用反序列化状态字典加载 model's参数字典 保存加载模型2种方式,在保存模型进行推理时,只需要保存训练过的模型的学习参数即可,一个常见的 PyTorch约定是使用.pt或.pth文件扩展名保存模型。 如果不这样做, 将会产生不一致的推断结果 #在保存用于推理或恢复训练的通用检查点时,必须保存模型的state_dict Pytorch模型转onnx 举例模型是调用resnet50训练的4分类模型,训练过程调用 ,则需要先创建模型,再加载模型参数 import torch from models import resnet50 model = resnet50() #创建模型 weight = torch.load

    4.8K30发布于 2021-01-27
  • 来自专栏Java项目实战

    解锁模型下载神器---免费加速插件

    现在,让我向你们介绍一个非常优秀的插件,它将彻底改变你们的下载体验——超越传统的模型git加速插件! 这个插将让你们拥有前所未有的下载速度和流畅体验。 它是专为开发者和AI研究人员设计的,旨在提高Git仓库中模型和代码的下载速度,提高工作效率,让你们更快地获得最新的模型和代码。 那么,你可能会问:“传统的Git下载速度为什么会那么慢呢?” 而模型git加速插件应运而生,通过一系列智能优化算法,解决了这些问题,让你的下载速度如飞一般。 下面让我们来看看超越传统的模型git加速插件的几个关键特点: 1.快速而稳定的下载速度:借助高效的下载算法和全球分布的加速节点,插件能够将下载速度提升至少50%,同时保证下载的稳定性和可靠性,让你不再为漫长的下载等待而苦恼 1.下载本地git安装包解压即用 拉取大模型加速器和git安装包:后台回复【神器】即可 2.解压即用 3.更改为本地安装路径 4.勾选功能 5.安装后成功 6.其他默认下一步即可 加速器使用双击exe即可全部选中

    77020编辑于 2023-11-15
  • 来自专栏贾志刚-OpenCV学堂

    使用OpenVINO加速Pytorch表情识别模型

    微信公众号:OpenCV学堂 关注获取更多计算机视觉与深度学习知识 关于模型 OpenVINO自带的表情识别模型是Caffe版本的,这里使用的模型是前面一篇文章中训练生成的pytorch全卷积网络,模型基于残差网络结构全卷积分类网络 输入格式:NCHW=1x3x64x64 输出格式:NCHW=1x8x1x1 支持八种表情识别,列表如下: ["neutral","anger","disdain","disgust","fear","happy 答案是借助OpenVINO的模型优化器组件工具,OpenVINO的模型优化器组件工具支持常见的Pytorch预训练模型与torchvision迁移训练模型的转换, ? 加速推理 使用OpenVINO的Inference Engine加速推理,对得到的模型通过OpenVINO安装包自带的OpenCV DNN完成调用,设置加速推理引擎为Inference Engine, ,并使用inference engine执行加速推理。

    1.9K20发布于 2020-07-13
  • 来自专栏深度学习和计算机视觉

    深度学习模型压缩与加速综述

    导读 本文详细介绍了4种主流的压缩与加速技术:结构优化、剪枝、量化、知识蒸馏,作者分别从每个技术结构与性能表现进行陈述。 近年来,深度学习模型在CV、NLP等领域实现了广泛应用。 因此,如何在不影响深度学习模型性能的情况下进行模型压缩与加速,成为了学术界和工业界的研究热点。 1、简介 深度学习模型压缩与加速是指利用神经网络参数和结构的冗余性精简模型,在不影响任务完成度的情况下,得到参数量更少、结构更精简的模型。 (事实上,压缩和加速是有区别的,压缩侧重于减少网络参数量,加速侧重于降低计算复杂度、提升并行能力等,压缩未必一定能加速,本文中我们把二者等同看待) 必要性:主流的模型,如VGG-16,参数量1亿3千多万 量化的优点在于:1).能够显著减少参数存储空间与内存占用空间,如,将参数从32bit浮点型量化到8bit整型能够减少75%的存储空间,这对于计算资源有限的边缘设备和嵌入式设备进行深度学习模型的部署和使用都有很大帮助

    1.2K21编辑于 2022-02-10
领券