首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI系统

    【AI系统】推理引擎架构

    在深入探讨推理引擎的架构之前,让我们先来概述一下推理引擎的基本概念。推理引擎作为 AI 系统中的关键组件,负责将训练好的模型部署到实际应用中,执行推理任务,从而实现智能决策和自动化处理。 随着 AI 技术的快速发展,推理引擎的设计和实现面临着诸多挑战,同时也展现出独特的优势。 本文将详细阐述推理引擎的特点、技术挑战以及如何应对这些挑战,为读者提供一个较为全面的视角。 一款好的推理引擎可以为用户服务带来实质性的收益,如上图中展示的柱状图,每个柱状图代表不同推理引擎在不同型号手机上的性能对比。 完成环境准备后,推理引擎会进行开发和编译,生成用于执行推理的进程。这个推理进程是实际执行推理任务的核心组件,它依赖于推理引擎提供的 API,为用户提供模块或任务开发所需的接口。 创建推理引擎对象 一旦配置选项设置完毕,下一步就是创建推理引擎对象。这个对象将负责管理整个推理过程,包括加载模型、执行推理等。创建推理引擎对象通常需要传递配置对象作为参数。

    1.7K21编辑于 2024-12-05
  • 来自专栏架构驿站

    LLM 推理引擎之争:Ollama or vLLM ?

    单线程推理:Ollama 设计采用单线程推理架构,简化了系统结构,避免了多线程带来的复杂性和资源竞争。这使得 Ollama 更加适合低并发的场景,能够高效地完成推理任务。 例如,在 macOS 上,用户可以利用 M1/M2 芯片的神经引擎加速推理,进一步提升处理速度和效率。 —02 — 什么是 vLLM 以及如何认识 ? query_vllm(api_url, "gpt-j", "Explain the concept of throughput in AI.") print(result) 从某种意义上而言,作为一款高性能推理引擎 性能提升:传统推理框架中,KV Cache 占用大量显存,尤其在长序列推理时问题更为严重。 3、资源利用率优化: FP16 推理:vLLM 默认使用半精度浮点(FP16)格式推理,结合 GPU 的 Tensor Core 加速计算,推理速度比 FP32 格式快 2 倍以上。

    1.9K11编辑于 2025-04-24
  • 转载:【AI系统】推理引擎架构

    在深入探讨推理引擎的架构之前,让我们先来概述一下推理引擎的基本概念。推理引擎作为 AI 系统中的关键组件,负责将训练好的模型部署到实际应用中,执行推理任务,从而实现智能决策和自动化处理。 随着 AI 技术的快速发展,推理引擎的设计和实现面临着诸多挑战,同时也展现出独特的优势。 本文将详细阐述推理引擎的特点、技术挑战以及如何应对这些挑战,为读者提供一个较为全面的视角。 一款好的推理引擎可以为用户服务带来实质性的收益,如上图中展示的柱状图,每个柱状图代表不同推理引擎在不同型号手机上的性能对比。 完成环境准备后,推理引擎会进行开发和编译,生成用于执行推理的进程。这个推理进程是实际执行推理任务的核心组件,它依赖于推理引擎提供的 API,为用户提供模块或任务开发所需的接口。 创建推理引擎对象 一旦配置选项设置完毕,下一步就是创建推理引擎对象。这个对象将负责管理整个推理过程,包括加载模型、执行推理等。创建推理引擎对象通常需要传递配置对象作为参数。

    1.4K10编辑于 2024-12-12
  • 来自专栏AI学习笔记

    动态稀疏推理系统:DeepSparse引擎剖析

    而深度稀疏推理系统,尤其是以 DeepSparse 引擎为代表的动态稀疏推理解决方案,犹如一颗新星,在优化模型推理性能的征程中绽放光芒。 高效的推理引擎应能在保证推理性能的同时,避免硬件资源的过度消耗和浪费,实现资源利用效率最大化。 对推理引擎的要求是低延迟、高吞吐,以保障大规模摄像头阵列的实时监控与预警能力。 在移动设备上,对推理引擎的低功耗和实时性要求极高,以确保长时间流畅的语音交互体验。 这对推理引擎的要求是极高的可靠性、低延迟和强大的并行处理能力,以保障行车安全和舒适性。

    55400编辑于 2025-07-10
  • 来自专栏音视频技术

    高性能视频推理引擎优化技术

    他通过自身的实践经验,详细讲解了高性能视频推理引擎优化技术。 文 / 鲍金龙 整理 / LiveVideoStack 大家晚上好,非常荣幸又有这个机会来LVS,与大家一起探讨一些问题。 今天的内容是推理引擎优化技术,当然有一个前提,主要是在端上。冯诺依曼体系的存储矛盾,几十年以来一直都是存在的主要矛盾。 所以,在端上的优化,还是需要从推理引擎的总体设计、算子本身的执行速度上,还有算子本身的可替换性上来入手,即从软件开发上来进行优化,因为硬件短时间内想提高10倍、20倍,实际上是非常困难的。 目前见到的常规推理引擎数据处理方式实际是Planar结构,它可能是多通道的,比如RGB,也可能是三个Channel,比如YUV、420格式、444格式。 但是一般的推理引擎都是需要复制一次,它不会在原始数据上直接处理,需要Pad-边界填充,同时可能也存在格式转换,重排可以和这个融合起来。

    51621发布于 2021-09-01
  • 来自专栏鸿蒙开发笔记

    HarmonyOS:使用MindSpore Lite引擎进行模型推理

    场景介绍MindSpore Lite 是一款 AI 引擎,它提供了面向不同硬件设备 AI 模型推理的功能,目前已经在图像分类、目标识别、人脸识别、文字识别等应用中广泛使用。 本文介绍使用 MindSpore Lite 推理引擎进行模型推理的通用开发流程。基本概念在进行开发前,请先了解以下概念。 Float16 推理模式 : Float16 又称半精度,它使用 16 比特表示一个数。Float16 推理模式表示推理的时候用半精度进行推理。 \n", ret); OH_AI_ModelDestroy(&model); return ret;}执行推理。使用 OH_AI_ModelPredict 接口进行模型推理。 模型推理结束之后,可以通过输出张量得到推理结果。

    66110编辑于 2024-07-03
  • 来自专栏周拱壹卒

    昇腾推理引擎性能测试套件 MindIE Benchmark

    MindIE Benchmark MindIE Benchmark 是 昇腾推理引擎[1](MindIE,Mind Inference Engine)中推理服务组件 MindIE Service 组件包含的性能测试套件 ()[4] 接口,对应 MindIE Server 的 兼容Triton的文本推理接口[5] 和 兼容Triton的流式推理接口[6]。 ,流式及非流式推理性能差别不大:请求提示词 token 数在 10~200 范围,响应 token 数在 200~5000 范围,并行推理数基本能够稳定在 128,等待推理的请求数基本为 0,每秒生成 每秒输出 token 总数,会受到输入 token 数、输出 token 数、并行推理数、等待请求数的影响: 输入输出 token 数越多,能够并行的推理数就会越少; 等待的请求数增多,并行推理数也会减少 参考资料 [1] 昇腾推理引擎: https://www.hiascend.com/document/detail/zh/mindie/100/whatismindie/mindie_what_0001

    25510编辑于 2026-03-16
  • 来自专栏高性能计算

    高性能深度学习推理引擎 OpenPPL 正式开源!

    OpenPPL 是商汤基于自研高性能算子库的开源深度学习推理平台,能够让人工智能应用高效可靠地运行在现有的 CPU、GPU 等计算平台上,为云端场景提供人工智能推理服务。 [OpenPPL] 官网:openppl.ai 在刚刚举行的 2021 世界人工智能大会(WAIC)上,商汤科技正式推出 OpenPPL 计划 —— 决定将深度学习推理部署引擎 SensePPL 中云端推理的能力开源给技术社区 [SensePPL] ▎把推理交给 OpenPPL,把时间还给思考 OpenPPL 基于全自研高性能算子库,拥有极致调优的性能;同时提供云原生环境下的 AI 模型多后端部署能力,并支持 OpenMMLab 一、高性能 设计微架构友好的任务/数据/指令等多级并行策略,自研 NV GPU、 x86 CPU 计算库,满足部署场景对神经网络推理、常用图像处理的性能需求 支持 GPU T4 平台 FP16 推理 支持 OpenPPL 会吸收业界的需求,长期维护并完善算子的种类,模型支持的类型,并将长期优化模型推理全链条。

    2.4K60发布于 2021-07-29
  • 来自专栏机器之心

    当开源创新遇上推理革命:SGLang如何炼就DeepSeek最强开源推理引擎

    与此同时,一个隐藏在超大规模模型身后的技术命题浮出水面:如何让千亿参数超大规模 AI 模型真正达到商业级推理速度?这一问题的答案,隐藏在推理引擎 SGLang 的代码仓库中。 二、Zero-Overhead Batch Scheduler:调度器的效能革命 在传统推理引擎中,尽管大模型的推理主要依赖 GPU 运算,但 CPU 仍需承担批调度、内存分配、前缀匹配等大量工作。 对于更灵活的部署方式,离线引擎模式(Offline Engine)允许单脚本同时驱动多节点推理,无需独立服务化,从而大幅简化了运维成本。 除开本身推理效果的优化,SGLang 团队也将致力推理引擎的广泛落地,继续支持 RAG、multi-Agent、Reasoning、RLHF 等等领域的 AI 落地。 从首个支持 Prefix Cache 的推理框架,到斩获 11K Star、月均 10 万下载量的开源明星;从 xAI、NVIDIA、AMD 等巨头的深度集成,到为 DeepSeek 模型的最佳开源推理引擎

    1.4K10编辑于 2025-03-07
  • 来自专栏机器之心

    字节跳动开源序列推理引擎LightSeq

    机器之心发布 机器之心编辑部 这应该是业界第一款完整支持 Transformer、GPT 等多种模型高速推理的开源引擎。 因此,今天给大家安利一款速度非常快,同时支持非常多特性的高性能序列推理引擎——LightSeq。 据了解,这应该是业界第一款完整支持 Transformer、GPT 等多种模型高速推理的开源引擎。 相比于目前其他开源序列推理引擎,LightSeq具有如下几点优势: 1. 高性能 LightSeq推理速度非常快。 同时领先目前其他开源序列推理引擎,例如最多可比Faster Transformer快1.4倍。 2.

    1.2K10编辑于 2023-03-29
  • 来自专栏ATYUN订阅号

    微软开源用于AI模型的推理引擎ONNX Runtime

    在Microsoft Connect 2018开发者大会上,微软对Azure和IoT Edge服务进行了大量更新,微软免费提供ONNX Runtime,一种用于ONNX格式的AI模型的推理引擎。 微软在开源代码中提供了大量框架和引擎。第一个是开放式神经网络交换(ONNX)Runtime,这是一种用于ONNX格式的机器学习模型的高性能推理引擎

    1.8K30发布于 2018-12-24
  • 来自专栏机器之心

    英伟达深度学习推理引擎TensorRT,现在开源了

    机器之心报道 参与:李亚洲、李泽南、思 英伟达的深度学习推理引擎TensorRT是连接神经网络框架与GPU之间的桥梁,它支持所有种类的神经网络框架,近期也实现了容器化,目前的TensorRT是5.1版。 TensorRT 是一个高性能深度学习推理平台,能够为在英伟达 GPU 上运行的语音、视频等 APP 提供更低地延迟、更高的吞吐量。 TensorRT 包含输入模型的解析器、支持全新 ops 的插件以及在利用优化进行推理之前的层。

    93850发布于 2019-06-21
  • 来自专栏程序员IT圈

    百度跨平台 AI 推理加速引擎 -- Anakin

    一、前言 AI技术包含训练和推理两个阶段。推理阶段的性能好坏既关系到用户体验,又关系到企业的服务成本,甚至在一些极端应用上(比如无人驾驶)直接关系到个人生命财产安全。 推理引擎的首要任务就是将性能优异且计算量庞大的深度学习框架快速部署到不同的硬件架构之上,并且能够保持性能相对高效。 然而纵观开源社区和闭源解决方案,没有任何一款推理引擎可以同时满足开源、跨平台、高性能三个特性。 因此,我们结合百度实际业务的需求、百度优秀工程师的研发能力以及行业合作伙伴的大力支持共同完成了百度自己的推理引擎Anakin v0.1.0。 Anakin多层次的应用 第一个层次:Anakin可以是一个计算库; 第二个层次:Anakin可以是一个独立的推理引擎; 第三个层次:Anakin可以通过Anakin-rpc构建一个完整的推理服务。

    1.6K40发布于 2018-08-16
  • 来自专栏机器之心

    推理速度数倍提升,大幅简化多GPU后端部署:Meta发布全新推理引擎AITemplate

    机器之心报道 机器之心编辑部 刚刚,Meta 发布了革命性的推理引擎 AITemplate。 众所周知,GPU 在各种视觉、自然语言和多模态模型推理任务中都占据重要位置。然而,对于高性能 GPU 推理引擎,AI 从业者几乎没有选择权,必须使用一些平台专有的黑盒系统。 针对这些业界难题,Meta AI 开发了拥有 NVIDIA GPU 和 AMD GPU 后端的统一推理引擎——AITemplate。 Meta 表示,这只是创建高性能多平台推理引擎旅程的开始:「我们正在积极扩展 AITemplate 的完全动态输入支持。 我们希望能构建一个更为绿色高效的 AI 推理系统,能拥有更高的性能,更强的灵活性和更多的后端选择。」团队表示。

    1.5K20编辑于 2022-10-08
  • 来自专栏AgenticAI

    清华大学开源赤兔大模型推理引擎,DeepSeek 推理成本减半,吐字效率翻倍

    清华大学是真干实事,近日开源最新的大模型推理引擎赤兔(chitu),是一个专注于效率、灵活性和可用性的高性能大语言模型推理框架。 全场景可伸缩:从纯 CPU 部署、单 GPU 部署到大规模集群部署,赤兔引擎提供可扩展的解决方案。 长期稳定运行:可应用于实际生产环境,稳定性足以承载并发业务流量。 我们先看一组实测数据,感受一下赤兔推理引擎的强大。 1. 毕竟单 batch 性能领先情况下,大批量只是时间问题,毕竟 3 月 14 号刚开源,就敢和老牌开源推理引擎 vLLM 掰手腕。 3.

    71300编辑于 2025-03-18
  • 来自专栏机器之心

    LLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理引擎SpecInfer,小模型撬动大模型高效推理

    机器之心专栏 机器之心编辑部 近日,来自卡耐基梅隆大学(CMU)的 Catalyst Group 团队发布了一款「投机式推理引擎 SpecInfer,可以借助轻量化的小模型来帮助大模型,在完全不影响生成内容准确度的情况下 近日,来自卡耐基梅隆大学(CMU)的 Catalyst Group 团队发布了一款「投机式推理引擎 SpecInfer,可以借助轻量化的小模型来帮助大模型,在完全不影响生成内容准确度的情况下,实现两到三倍的推理加速 Incremental Decoding 示意图 为了解决上述问题,研究者提出了一种「投机式」推理引擎 SpecInfer,其核心思想是通过计算代价远低于 LLM 的 “小模型” SSM(Small Speculative 在 SpecInfer 中,LLM 并不直接作为推理引擎产生输出 token,但是它需要对 Speculator 中 SSM 产生的 token 进行验证,确保输出内容符合 LLM 的推理语义。 更多更详细的实验结果可以参考论文原文:https://arxiv.org/abs/2305.09781 总结 SpecInfer 是首个基于「推测式解码」的分布式 LLM 推理引擎,通过集成多个小模型,

    1.7K20编辑于 2023-05-31
  • 来自专栏得物技术

    得物AI平台-KubeAI推理训练引擎设计和实践

    平台自研推理引擎助力业务在提高模型服务性能的同时还能控制成本;自研训练引擎提高了模型训练任务吞吐量,缩短了模型的训练时长,帮助模型开发者加速模型迭代。 本文,我们将重点介绍下KubeAI平台在推理、训练和模型迭代过程中的核心引擎能力实践经验。 ****2.AI推理引擎设计实现2.1 推理服务现状及性能瓶颈分析Python语言以其灵活轻盈的特点,以及其在神经网络训练与推理领域提供了丰富的库支持,在模型研究和开发领域被广泛使用,所以模型推理服务也主要以 TensorRT是由英伟达公司推出的一款用于高性能深度学习模型推理的软件开发工具包,可以把经过优化后的深度学习模型构建成推理服务部署在实际的生产环境中,并提供基于硬件级别的推理引擎性能优化。 此外,AI Pipeline引擎上,我们会支持更丰富的预置模型,以满足通用数据处理任务、推理任务等需求。

    1.5K20编辑于 2023-05-16
  • 来自专栏数说工作室

    轻量级深度学习端侧推理引擎 MNN,阿里开源!

    MNN 是一个轻量级的深度学习端侧推理引擎,核心解决深度神经网络模型在端侧推理运行问题,涵盖深度神经网络模型的优化、转换和推理。 ,主要完成模型推理,即加载模型,完成推理相关的所有计算; 由上可知,端侧推理引擎是端智能应用的核心模块,需要在有限算力、有限内存等限制下,高效地利用资源,快速完成推理。 可以说,端侧推理引擎实现的优劣,直接决定了算法模型能否在端侧运行,决定了业务能否上线。因此,我们需要一个端侧推理引擎,一个优秀的端侧推理引擎。 4.2 为什么要开源 MNN? 在 2017 年初,我们在开始引擎研发之前,重点调研了系统方案和开源方案,从通用性、轻量性、高性能、安全性等方面深入分。 总的来说,我们找不到一套面向不同训练框架,不同部署环境,简单高效安全的端侧推理引擎。 因此,我们希望提供面向不同业务算法场景,不同训练框架,不同部署环境的简单、高效、安全的端侧推理引擎 MNN 。

    7.9K40发布于 2019-05-17
  • 来自专栏存储公众号:王知鱼

    揭秘 NVIDIA Dynamo:分布式AI推理的高效引擎

    NVIDIA Dynamo作为新一代开源推理框架,专为大规模分布式环境设计,通过解耦式服务、智能路由、动态资源调度等创新技术,将推理吞吐量提升30倍以上。 NVIDIA Dynamo是一款面向大规模分布式环境部署生成式AI和推理模型的高性能、低延迟开源推理服务框架。 加速多节点AI推理部署 AI推理将助力开发者通过整合推理模型到工作流中,构建更直观理解用户需求的突破性应用。 自NVIDIA于2018年推出首款开源AI推理服务器NVIDIA Triton以来,其目标始终是加速AI创新并降低推理成本。 结合NVIDIA Dynamo策略引擎,NIXL自动选择最佳后端连接,并抽象不同存储类型的差异。这通过通用“内存区”实现,可为HBM、DRAM、本地SSD或网络化存储(块、对象或文件存储)。

    3.7K10编辑于 2025-03-29
  • 来自专栏ATYUN订阅号

    Flex Logix展示全新神经推理引擎,专为AI部署而生

    芯片制造商Flex Logix今天推出了新的Nmax通用神经推理引擎,该引擎专为在许多环境中使用流行的机器学习框架(如TensorFlow或Caffe)进行AI部署而设计,可以将多个神经加速器组合在一起以实现更高水平的吞吐量 Flex Logix表示,在处理来自图像分类基准ResNet50的批次时,其Nmax 512拼贴配置胜过其他数据中心推理产品,如Nvidia Tesla T4。 它现在正在生产中,Tate表示Nmax引擎将于2019年末上市。 Nmax引擎与Flex Logix以前的工作背道而驰,之前主要专注于专门用于哈佛大学,DARPA和波音等客户的特定任务的嵌入式现场可编程门阵列(FPGA)芯片。 Nmax使用互连技术,如FPGA芯片中使用的类型,但它是一个通用的神经推理引擎,使用TensorFlow进行编程,设计用于运行任何类型的神经网络。

    61620发布于 2018-12-11
领券