首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏云上修行

    vLLM: 加速AI推理的利器

    * "npcache"将以pytorch格式加载权重并存储numpy缓存以加速加载。* "dummy"将以随机值初始化权重,主要用于性能分析。 在ROCm(AMD GPU)上,相反,支持FP8_E4M3以满足常见的推理标准。 通过减少KV缓存的使用,系统能够处理更大的负载并更快地进行推理

    3.3K10编辑于 2024-07-22
  • 来自专栏存储公众号:王知鱼

    WD:Flash加速AI推理在端侧落地

    与算力紧缺相比,数据管道读取带宽、通信效率是限制AI训练更关键因素。 端侧设备模型推理挑战 AI应用在端侧设备落地过程遇到的问题 SLM 模型虽已显著压缩,但与当前端侧设备的DRAM容量相比,仍明显超出。 加速推理过程: 跳过冗余计算和减少不必要的参数加载直接提高了推理速度。 模型中活跃的神经元只占一部分,稀疏性使得我们能够专注于少数真正需要参与运算的部分,大大减少了总的计算负荷,从而加速模型的推理。 4. • 硬件厂商 专用加速器: 开发专门针对稀疏矩阵运算优化的硬件加速器。这些加速器可以设计有特殊的电路来跳过零值计算,从而节省处理时间和能耗。

    57910编辑于 2025-02-11
  • 来自专栏AI

    SIMD技术:定义、与AI的关联及推理加速

    (二)优化AI模型的推理速度在AI模型的推理阶段,速度往往是决定其能否在实际应用场景中落地的关键因素。SIMD技术凭借并行处理多个数据元素的能力,能够显著削减推理时间。 再看Google的TPU,其同样深度优化了SIMD架构,针对AI模型中常见的张量运算进行硬件加速。 三、使用SIMD技术提升AI模型的推理速度(一)矩阵运算加速AI模型中的矩阵运算堪称计算量最为集中的部分,而SIMD技术能够对其实现显著加速。 五、总结SIMD技术凭借其并行处理多个数据元素的独特优势,在提升AI模型推理速度方面成效斐然。 在矩阵运算环节,能够显著加速大规模矩阵乘法和加法操作,减少运算时间;数据预处理阶段,快速完成数据归一化、标准化等操作,为模型推理争取宝贵时间;量化与SIMD结合,在降低数据精度的同时,进一步提升计算效率

    76710编辑于 2025-04-02
  • 来自专栏程序员IT圈

    百度跨平台 AI 推理加速引擎 -- Anakin

    一、前言 AI技术包含训练和推理两个阶段。推理阶段的性能好坏既关系到用户体验,又关系到企业的服务成本,甚至在一些极端应用上(比如无人驾驶)直接关系到个人生命财产安全。 目前AI落地面临的挑战主要来源于两方面,一方面是AI算法的日新月异,带来了计算量的猛增,从AlexNet到AlphaGo,5年多的时间里计算量提升了30w倍。 另一方面是底层硬件异构化的趋势愈发明显,近年来涌现出非常多优秀的架构来解决AI计算力问题。 然而纵观开源社区和闭源解决方案,没有任何一款推理引擎可以同时满足开源、跨平台、高性能三个特性。 Anakin多层次的应用 第一个层次:Anakin可以是一个计算库; 第二个层次:Anakin可以是一个独立的推理引擎; 第三个层次:Anakin可以通过Anakin-rpc构建一个完整的推理服务。

    1.6K40发布于 2018-08-16
  • 来自专栏云实例评测

    免费易用 ,腾讯Arm云实例评测 - AI推理加速

    Ampere为基于Ampere Altra处理器的SR1实例提供了优化过的AI框架(Ampere AI),并通过腾讯镜像市场提供免费的镜像给客户使用。 用CPU做推理现下AI推理应用的算力来源主要有三种方式,即CPU+AI专用芯片,CPU+GPU和单纯的CPU推理。 根据Statista和麦肯锡之前发布的AI硬件洞察报告,基于CPU的推理目前仍占50%以上。相比其他两种模式,采用CPU推理的主要原因有几点:更加灵活便利,软件主导,对应用方来说对专用硬件的依赖性低。 更重要的是在CPU上搭建推理应用可以方便的将AI集成到业务逻辑模块,融入微服务云原生体系。 结论采用Ampere® Altra®处理器的腾讯SR1实例,充分发挥了单核单线程的性能优势,同时Ampere® AI优化软件栈将SR1在AI推理应用中,相对x86架构的性价比优势提升到了70%。

    6.2K390编辑于 2022-06-23
  • 来自专栏深度学习与python

    云原生 AI 工程化实践:FasterTransformer 加速 LLM 推理

    为了帮助用户解决云原生系统中的大语言模型推理加速问题,云原生 AI 套件引入了 FasterTransformer 推理加速方案。 本文将在 ACK 容器服务上,以 Bloom7B1 模型为例展示如何使用 FasterTransformer 进行推理加速。 类型模型(也包括 encoder-only、decoder-only)的推理加速方案,其提供了 Kernel Fuse、Memory reuse、kv cache、量化等多种优化方案,同时也提供了 Tensor 本文将介绍如何在云原生 AI 套件中使用 FasterTransformer 进行模型的推理加速。 后续我们会逐步推出更多大模型相关的推理加速方案,以满足不同的业务需求,大家敬请期待。

    70660编辑于 2023-09-08
  • 来自专栏GPUS开发者

    英伟达TensorRT加速AI推理 Hackathon 2022初赛复盘

    阿里云天池联合英伟达在4月份启动了“英伟达 TensorRT 加速 AI 推理 Hackathon2022——Transformer 模型优化赛”,助力开发者在编程实践中寻找更高效的解决路径,同时也让更多工程师通过大赛实践更好的掌握 TensorRT 这一高性能加速工具。 (英伟达TensorRT加速AI推理 Hackathon 2022现在开始报名 ) 5月20日,初赛顺利结束,共85支队伍完成了模型的转换和性能调优,最终40支队伍进入复赛。

    65310编辑于 2022-05-27
  • 来自专栏GPUS开发者

    英伟达TensorRT加速AI推理 Hackathon 2022现在开始报名

    为了加速深度学习模型的推理,英伟达推出了TensorRT。经过多年的版本迭代,TensorRT在保持极致性能的同时,大大提高了易用性,已经成为GPU上推理计算的必备工具。 参赛的开发者将在专家组的指导下在初赛中对给定模型加速;在复赛中自选模型进行加速,并得到专家组一对一指导。

    80730编辑于 2022-04-07
  • 来自专栏深度学习与python

    AI推理加速原理解析与工程实践分享 | Q推荐

    这次分享将端到端分析 AI 推理过程以及痛点,介绍业界典型的推理加速思路和具体方案,并介绍百度智能云在这方面的一些实践成果。 本次分享我们将介绍如何加速 AI 推理过程。 内容主要包括四部分: 第一部分,端到端的分析 AI 推理的过程以及这个过程中的痛点; 第二部分,我们将介绍业界典型的推理加速思路及具体方案; 第三部分,介绍百度百舸平台的 AI 推理加速套件 AIAK-Inference 为此,我们需要 AI 推理加速,针对用户训练好的模型,进行针对性的加速,缩短业务推理时间,同时提升资源利用率。 因此我们把 SM 利用率当做 AI 推理加速的牵引指标。 使用 AIAK-Inference 推理加速套件 首先整体介绍下 AIAK-Inference 推理加速套件在 AI 推理流程中的位置。

    1.1K10编辑于 2023-03-29
  • 来自专栏往期博文

    【目标检测】YOLOv5推理加速实验:TensorRT加速

    前言 前两篇博文分别讨论了YOLOv5检测算法的两种加速思路:采用多进程或批量检测,不过效果均收效甚微。本问将讨论使用TensorRT加速以及半精度推理/模型量化等优化策略对检测加速的实际影响。 最新版(v7.0+) 检测策略:将整张图片直接设置img_size为(1280x1280)进行检测(忽略精度,只注重速度) 环境搭建 关于TensorRT的安装在之前博文【目标检测】使用TensorRT加速 (inference)时间确实如某些资料所述,加速了五倍以上,但预处理时间却慢了不少。 在转TensorRT模型过程中,有一些其它参数可供选择,比如,可以使用半精度推理和模型量化策略。 半精度推理即FP32->FP16,模型量化策略(int8)较复杂,具体原理可参考部署系列——神经网络INT8量化教程第一讲!

    2.4K40编辑于 2023-04-12
  • 来自专栏CSDN博客

    微调Whisper模型和加速推理

    另外项目最后还对语音识别加速推理,使用了CTranslate2加速推理,提示一下,加速推理支持直接使用Whisper原模型转换,并不一定需要微调。 python infer.py --audio_path=dataset/test.wav --model_path=models/whisper-large-v2-finetune 加速预测 众所周知 ,直接使用Whisper模型推理是比较慢的,所以这里提供了一个加速的方式,主要是使用了CTranslate2进行加速,首先要转换模型,把合并后的模型转换为CTranslate2模型。 --output_dir models/whisper-large-v2-ct2 --copy_files tokenizer.json --quantization float16 执行以下程序进行加速语音识别

    3K30编辑于 2023-04-30
  • 来自专栏AI技术探索和应用

    使用vLLM加速大语言模型推理

    介绍 vLLM 是一个快速且易于使用的库,用于 LLM 推理和服务,和 HuggingFace 无缝集成。 区别于 chatglm.cpp 和 llama.cpp,仅是在 GPU 上的模型推理加速,没有 CPU 上的加速。 在吞吐量方面,vLLM 的性能比 HuggingFace Transformers (HF) 高出 24 倍,文本生成推理 (TGI) 高出 3.5 倍。 GPT-J (EleutherAI/gpt-j-6b, nomic-ai/gpt4all-j, etc.) is", "The president of the United States is", "The capital of France is", "The future of AI

    24.1K21编辑于 2024-03-13
  • 来自专栏机器学习AI算法工程

    onnx实现对pytorch模型推理加速

    ONNX Runtime是适用于Linux,Windows和Mac上ONNX格式的机器学习模型的高性能推理引擎。 ? 3.torch.nn.Module.load_state_dict:使用反序列化状态字典加载 model's参数字典 保存加载模型2种方式,在保存模型进行推理时,只需要保存训练过的模型的学习参数即可,一个常见的 如果不这样做, 将会产生不一致的推断结果 #在保存用于推理或恢复训练的通用检查点时,必须保存模型的state_dict Pytorch模型转onnx 举例模型是调用resnet50训练的4分类模型,训练过程调用 使用onnx推理预测 ?

    4.8K30发布于 2021-01-27
  • 智谱AI开源GLM模型:8倍加速推理与全球布局

    此次发布包括先进的GLM-4系列和突破性的GLM-Z1推理模型,这些模型拥有前所未有的推理速度,并推出了专用的国际域名Z.ai。 其中亮点是GLM-Z1推理模型,据称其推理速度比DeepSeek-R1快八倍。 这种卓越的响应能力使其成为高效AI推理领域的领跑者,这也是智谱AI寻求进一步市场扩张的关键优势。 这些紧凑而强大的模型在数学推理和通用任务中表现出色,为资源受限的环境提供了高效的解决方案,进一步拓宽了智谱AI的吸引力。所有模型均在宽松的MIT许可证下发布。 对于企业客户,智谱AI继续提供其强大的模型即服务(MaaS)平台,该平台现已集成新开源的基础模型和推理模型。

    1.2K180编辑于 2026-03-30
  • 来自专栏量子位

    推理加速GPT-3超越英伟达方案50%!最新大模型推理系统Energon-AI开源,来自Colossal-AI团队

    为此,大规模并行AI训练系统Colossal-AI团队提出了大模型推理系统Energon-AI。 仅需对现有项目进行极少量修改,用户就能完成自定义大模型的推理部署,获得并行扩展的超线性加速。 对于AI大模型分布式推理加速,相比英伟达FasterTransformer可提升50%以上。 而当前的深度学习推理系统,主要面向多实例单设备以及单实例单设备的简单推理场景,忽视了AI大模型推理所需要的单实例多设备的挑战与机遇,Energon-AI系统正是为了解决这一痛点而生。 Energon-AI八卡并行推理在Batch Size为32时,相比于单卡Pytorch直接推理,可获得8.5倍的超线性加速。 对于蛋白质结构预测应用AlphaFold,基于Colossal-AI加速方案的FastFold,成功超越谷歌和哥伦比亚大学的方案,将AlphaFold训练时间从11天减少到67小时。

    1.3K10编辑于 2022-05-31
  • 来自专栏贾志刚-OpenCV学堂

    推理加速GPT-3超越英伟达方案50%!最新大模型推理系统Energon-AI开源,来自Colossal-AI团队

    为此,大规模并行AI训练系统Colossal-AI团队提出了大模型推理系统Energon-AI。 仅需对现有项目进行极少量修改,用户就能完成自定义大模型的推理部署,获得并行扩展的超线性加速。 对于AI大模型分布式推理加速,相比英伟达FasterTransformer可提升50%以上。 而当前的深度学习推理系统,主要面向多实例单设备以及单实例单设备的简单推理场景,忽视了AI大模型推理所需要的单实例多设备的挑战与机遇,Energon-AI系统正是为了解决这一痛点而生。 Energon-AI八卡并行推理在Batch Size为32时,相比于单卡Pytorch直接推理,可获得8.5倍的超线性加速。 对于蛋白质结构预测应用AlphaFold,基于Colossal-AI加速方案的FastFold,成功超越谷歌和哥伦比亚大学的方案,将AlphaFold训练时间从11天减少到67小时。

    1.7K20编辑于 2022-06-02
  • 来自专栏机器学习与生成对抗网络

    【骚操作】折叠Batch Normalization加速模型推理

    作者丨Nathan Hubens 来源丨AI公园 介绍 Batch Normalization是将各层的输入进行归一化,使训练过程更快、更稳定的一种技术。 但它在推理的时候有多少用处呢? 一旦训练结束,每个Batch normalization层都拥有一组特定的γ和β,还有μ和σ,后者在训练过程中使用指数加权平均值进行计算。 这将删除一些不必要的参数,但也会减少推理时要执行的操作数量。 在实践中怎么做? 用一点数学知识,我们可以很容易地重新对卷积进行排列来处理batch normalization。 单个图像的初始推理时间为: ? 如果使用了batch normalization折叠,我们有: ? 以及: ? 8448个参数被去掉了,更好的是,几乎快了0.4毫秒! 推理时间为: ? 使用batch normalization折叠后,有: ? 和: ? 现在,我们有26,560的参数被移除,更惊讶的hi,推理时间减少了1.5ms,性能一点也没降。 ?

    44020发布于 2021-01-08
  • 来自专栏贾志刚-OpenCV学堂

    使用Batch Normalization折叠来加速模型推理

    但它在推理的时候有多少用处呢? 一旦训练结束,每个Batch normalization层都拥有一组特定的γ和β,还有μ和σ,后者在训练过程中使用指数加权平均值进行计算。 这将删除一些不必要的参数,但也会减少推理时要执行的操作数量。 在实践中怎么做? 用一点数学知识,我们可以很容易地重新对卷积进行排列来处理batch normalization。 两个网络都将训练5个epoch,看看参数数量和推理时间的变化。 1. VGG16 我们从训练VGG16 5个epoch开始(最终的准确性并不重要): ? 参数的数量: ? 单个图像的初始推理时间为: ? 如果使用了batch normalization折叠,我们有: ? 以及: ? 8448个参数被去掉了,更好的是,几乎快了0.4毫秒! 推理时间为: ? 使用batch normalization折叠后,有: ? 和: ? 现在,我们有26,560的参数被移除,更惊讶的hi,推理时间减少了1.5ms,性能一点也没降。 ?

    1.2K10发布于 2020-11-13
  • PyTorch编译缓存加速模型推理技术解析

    Torch编译缓存助力推理加速某机构现已缓存torch.compile编译产物,以缩短使用PyTorch框架模型的启动时间。 torch.compile技术解析许多模型(特别是FLUX系列)应用了多种torch.compile技术和技巧来提升推理速度。首次调用编译函数时会进行代码追踪和编译,这会带来额外开销。 技术提示:在某机构对black-forest-labs/flux-kontext-dev的推理速度测试中,编译版本比未编译版本运行速度快30%以上。

    20910编辑于 2025-10-29
  • 来自专栏AIGC 先锋科技

    推理加速策略对 LLMs 偏差的影响 !

    这些加速策略通过降低推理成本和延迟,通常降低几个数量级,同时保持通过常见基准测量的预测性能。 在这项工作中,作者探讨了LLM性能的另一个关键方面:由于推理加速优化而产生的模型生成人口统计偏见。 本论文探讨了在实施推理加速策略后,模型输出中的人口统计偏见如何变化。具体而言,作者旨在回答以下研究问题: RQ1: 某些偏见类型是否由于推理加速而更容易显现? RQ2: 某些推理加速策略是否更容易导致偏见? RQ3: 策略的偏见影响是否在各种模型中保持一致?作者的评估包括五种常用的推理加速技术以及三种广泛使用的LLM。 推理加速策略。 作者考虑不需要重新训练的推理时间加速技术。这种选择使作者能够在真实场景中评估用户下载预训练模型并将其应用于任务,而不需要进一步的数据或计算密集型修改。 5 Results 论文中的AI实验结果因模型和上下文而异。结果还显示,虽然输入概率基础的度量标准CrowSPairs在整体上没有明显的变化,但考虑更广泛的度量标准,则呈现出更为多样化的画面。

    34610编辑于 2024-11-25
领券