首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI系统

    AI系统】推理参数

    本文将介绍 AI 模型网络参数方面的一些基本概念,以及硬件相关的性能指标,为后面让大家更了解模型轻量化做初步准备。 MAddsMACs 全称 Multiply–Accumulate Operations,即乘加累积操作,1MACs 包含一个乘法操作与一个加法操作,大约包含 2FLOPs。 通常 MACs 与 FLOPs 存在一个 2 倍的关系,而 MACs 和 MAdds 是同一个含义。

    1.3K10编辑于 2024-12-02
  • 来自专栏AI系统

    AI系统】推理流程全景

    部署态中的 AI 模型已经完成了训练阶段,被部署到实际应用环境中,如云端服务器、边缘设备、移动应用等,用于实时或近实时地进行推理预测的过程。 此时,AI 模型不再处于学习状态,而是作为服务的一部分,接受输入数据并输出预测结果。云端部署的推理系统更像传统 Web 服务,在边缘侧部署的模型更像手机应用和 IOT 应用系统。 移动设备:如智能手机、平板电脑、智能穿戴设备等,它们内置处理器、内存和操作系统,能够运行轻量级推理应用,实现基于 AI 的个性化服务、实时分析或设备自主决策。 云端部署推理系统的确具备诸多显著优点,使其成为众多企业和课程首选的部署方式。然而,云端部署并非万能解决方案,也伴随着一些特定的挑战。AI 的服务成本非常高昂。 综上所述,云侧推理和部署的全流程涵盖了模型全生命周期管理、服务接口设计、请求处理与调度、推理执行、系统监控以及硬件优化等多个环节,旨在构建一个高效、稳定、可扩展的云上 AI 服务环境。

    1.7K11编辑于 2024-12-02
  • 来自专栏AI系统

    AI系统】推理系统介绍

    推理系统是一个专门用于部署神经网络模型,执行推理预测任务的 AI 系统。它类似于传统的 Web 服务或移动端应用系统,但专注于 AI 模型的部署与运行。 最后,通过比较推理系统与推理引擎的流程结构,将进一步揭示两者在设计和实施时需考虑的关键要素。AI 生命周期在日常生活中,深度学习的相关方法已经广泛的部署到各类的应用当中。 创建一个示例输入torch.onnx.export(model, dummy_input, "resnet50.onnx", opset_version=11) # 将模型导出为 ONNX 格式# 步骤 2: context.execute_async_v2(bindings=[int(d_input), int(d_output)], stream_handle=stream.handle)# 从 GPU 根据上图示的 AI 框架、推理系统与硬件之间的关系,可以看到,除了应对应用场景的多样化需求,推理系统还需克服由不同训练框架和推理硬件所带来的部署环境多样性挑战,这些挑战不仅增加了部署优化和维护的难度,而且易于出错

    1.8K10编辑于 2024-12-02
  • 来自专栏皮振伟的专栏

    漫谈AI推理与存储

    AI存储核心需求 模型权重 LLM模型权重是AI推理最基础的持久化存储数据,核心特征为一次写入、多次读取。 GD2FS核心设计理念 GD2FS全称为GPU Direct Distributed File System,是适配AI推理场景自研的专属分布式文件系统,核心设计理念为深度融合GPU加速技术与高速网络能力 基于GD2FS的AI推理架构 基于GD2FS构建的LLM推理协同架构,核心是重塑端到端的AI推理链路,打破传统推理引擎、存储、调度系统的割裂状态。 AI推理是典型的系统性工程,性能优化不能局限于单一模块,需实现存储、推理、调度的全局协同。 、缓存吞吐、存储成本、资源调度等核心痛点,为超长上下文、高并发、大规模AI推理场景提供底层支撑。

    8810编辑于 2026-06-05
  • 来自专栏AI系统

    AI系统】推理系统架构

    推理系统架构是 AI 领域中的一个关键组成部分,它负责将训练好的模型应用于实际问题,从而实现智能决策和自动化。 为了加快推理速度、减少计算资源的消耗,工程师们常常会使用模型压缩技术,如量化、剪枝和蒸馏。此外,硬件加速(如 GPU、TPU)和专用芯片(如 AI 加速器)也是提高推理效率的重要手段。 多框架支持:兼容 TensorFlow、PyTorch、ONNX 等主流 AI 框架。模型优化:集成 TensorRT 等优化工具,进一步提升模型推理性能。 安全性:支持安全传输和访问控制,保障推理服务的安全性。作为一个强大的推理框架,Triton 能够满足多样化的 AI 应用需求,帮助企业和开发者构建高效、可靠的推理服务。 这一功能基于其动态模型发现与加载机制,使得 AI 应用能够迅速适应市场需求变化,如模型精度提升、新功能上线等。配合版本控制和滚动更新策略,可确保服务连续性不受影响。

    2K10编辑于 2024-12-02
  • 来自专栏AI系统

    AI系统】推理系统引言

    推理的最终目标,便是将训练好的模型部署到实际的生产环境中,使 AI 真正运行起来,服务于日常生活。推理系统,是一个专门用于部署神经网络模型,执行推理预测任务的 AI 系统。 推理引擎,则是推理系统中的重要组成部分,它主要负责 AI 模型的加载与执行。 为了应对这些挑战,推理引擎的在线部署和优化显得尤为重要。首先,推理引擎需要支持不同 AI 框架训练得到的模型的转换。 其中,对于卷积 kernel 算子的优化主要关注 Im2Col、Winograd 等算法的应用。这些算法通过特定的数学变换和近似,减少了卷积操作的计算复杂度,从而提升了推理速度。 人工客服应用推理引擎或推理系统在人工客服和 AI 对话方面有广泛的应用。以下是一些相关的内容:智能客服:推理引擎可以用于实现智能客服系统,能够理解用户的问题并提供准确的答案。

    1.3K10编辑于 2024-12-02
  • 来自专栏AI系统

    AI系统】推理内存布局

    从前文的简单介绍中,我们提到了可以从内存布局上对推理引擎的 Kernel 进行优化,接下来,我们将先介绍 CPU 和 GPU 的基础内存知识,NCHWX 内存排布格式以及详细展开描述 MNN 这个针对移动应用量身定制的通用高效推理引擎中通过数据内存重新排布进行的内核优化 NCHWX在推理引擎中,或者底层 Kernel 层实际上为了更加适配到 DSA 或者 ASIC 专用芯片会使用 NCHWX 内存排布格式,那么下面我们来详细了解一下 NCHWX 数据排布格式。 MNNMNN 是一个轻量级的深度学习端侧推理引擎,核心解决神经网络模型在端侧推理运行问题,涵盖神经网络模型的优化、转换和推理

    1.3K10编辑于 2024-12-06
  • 来自专栏AI系统

    AI系统】推理引擎架构

    在深入探讨推理引擎的架构之前,让我们先来概述一下推理引擎的基本概念。推理引擎作为 AI 系统中的关键组件,负责将训练好的模型部署到实际应用中,执行推理任务,从而实现智能决策和自动化处理。 随着 AI 技术的快速发展,推理引擎的设计和实现面临着诸多挑战,同时也展现出独特的优势。 本文将详细阐述推理引擎的特点、技术挑战以及如何应对这些挑战,为读者提供一个较为全面的视角。 易用性 易用性是衡量一个 AI 推理引擎是否能够被广泛采纳和高效利用的关键指标。 高性能 高性能是推理引擎的灵魂,它直接决定了 AI 应用的响应速度、资源消耗以及用户体验。 它的设计使得开发者可以在没有 GPU 的情况下,仍然获得较快的推理速度。 MACE:MACE 是小米推出的移动端 AI 计算引擎,全称为 Mobile AI Compute Engine。

    1.9K21编辑于 2024-12-05
  • CANN × ROS 2:为智能机器人打造实时 AI 推理底座

    CANN × ROS 2:为智能机器人打造实时 AI 推理底座 在自动驾驶小车、巡检机器人、服务机械臂等场景中,机器人需要在毫秒级时间内完成: 多摄像头目标检测 激光雷达点云分割 语音指令理解 路径规划决策 CANN(Compute Architecture for Neural Networks) 凭借其高能效比与全栈优化能力,正成为机器人 AI 推理的理想选择。 Service) 推理延迟 < 50ms 资源受限 实时调度(RMW) INT8 推理,功耗 < 15W 多传感器融合 Time Synchronization 多模型流水线执行 安全可靠 Security 集成 diagnostics_updater 实时上报 CANN 推理延迟、温度、功耗。 启用 ROS 2 Security 加密 Topic 通信,防止感知数据被窃听。 它让复杂的多模态 AI 模型,能在低功耗嵌入式平台上实时运行,为具身智能落地扫清最后一道障碍。 相关资源链接 cann组织链接:cann组织 ops-nn仓库链接:ops-nn仓库

    35110编辑于 2026-02-09
  • 转载:【AI系统】推理系统介绍

    推理系统是一个专门用于部署神经网络模型,执行推理预测任务的 AI 系统。它类似于传统的 Web 服务或移动端应用系统,但专注于 AI 模型的部署与运行。 最后,通过比较推理系统与推理引擎的流程结构,将进一步揭示两者在设计和实施时需考虑的关键要素。AI 生命周期在日常生活中,深度学习的相关方法已经广泛的部署到各类的应用当中。 创建一个示例输入torch.onnx.export(model, dummy_input, "resnet50.onnx", opset_version=11) # 将模型导出为 ONNX 格式# 步骤 2: context.execute_async_v2(bindings=[int(d_input), int(d_output)], stream_handle=stream.handle)# 从 GPU 根据上图示的 AI 框架、推理系统与硬件之间的关系,可以看到,除了应对应用场景的多样化需求,推理系统还需克服由不同训练框架和推理硬件所带来的部署环境多样性挑战,这些挑战不仅增加了部署优化和维护的难度,而且易于出错

    1.2K10编辑于 2024-12-12
  • 转载:【AI系统】推理系统架构

    推理系统架构是 AI 领域中的一个关键组成部分,它负责将训练好的模型应用于实际问题,从而实现智能决策和自动化。 为了加快推理速度、减少计算资源的消耗,工程师们常常会使用模型压缩技术,如量化、剪枝和蒸馏。此外,硬件加速(如 GPU、TPU)和专用芯片(如 AI 加速器)也是提高推理效率的重要手段。 多框架支持:兼容 TensorFlow、PyTorch、ONNX 等主流 AI 框架。 模型优化:集成 TensorRT 等优化工具,进一步提升模型推理性能。 安全性:支持安全传输和访问控制,保障推理服务的安全性。 作为一个强大的推理框架,Triton 能够满足多样化的 AI 应用需求,帮助企业和开发者构建高效、可靠的推理服务。 这一功能基于其动态模型发现与加载机制,使得 AI 应用能够迅速适应市场需求变化,如模型精度提升、新功能上线等。配合版本控制和滚动更新策略,可确保服务连续性不受影响。

    1.7K11编辑于 2024-12-12
  • 来自专栏云上修行

    vLLM: 加速AI推理的利器

    --kv-cache-dtype {auto,fp8,fp8_e5m2,fp8_e4m3} kv缓存存储的数据类型。 CUDA 11.8+支持fp8(=fp8_e4m3)和fp8_e5m2。 FP8_E5M2(未缩放)仅在CUDA版本大于11.8时支持。在ROCm(AMD GPU)上,相反,支持FP8_E4M3以满足常见的推理标准。 使用BlockSpaceMangerV2。 通过减少KV缓存的使用,系统能够处理更大的负载并更快地进行推理

    3.6K10编辑于 2024-07-22
  • 全球AI推理扩展技术解析

    全球跨区域AI推理扩展技术解析随着组织越来越多地将生成式AI功能集成到应用程序中,AI推理工作负载的规模和重要性不断增长。组织在维护AI驱动应用程序的一致性能、可靠性和可用性方面面临新挑战。 核心功能与技术架构推理配置文件机制推理配置文件定义了基础模型和一个或多个可路由模型调用请求的区域。 = bedrock.converse( messages=[{"role": "user", "content": [{"text": "Explain cloud computing in 2 AI应用提供了多项技术优势:峰值需求期间的增强吞吐量 - 通过自动将请求路由到具有可用容量的区域,在需求高峰期间提供改进的弹性成本效益 - 与地理跨区域推理相比,输入和输出令牌定价节省约10%简化监控 AI应用程序、高容量工作负载和灾难恢复场景,通过使用AWS全球基础设施提供增强的弹性。

    26700编辑于 2025-10-18
  • 来自专栏Tencent Serverless 官方专栏

    使用 Serverless 进行 AI 预测推理

    使用 Serverless 进行 AI 预测推理 概览 在 AI 项目中,通常大家关注的都是怎么进行训练、怎么调优模型、怎么来达到满意的识别率。 而常规的部署方案,通常都是将模型部署到一台独立设备上,对外以 API 接口的形式提供服务,业务模块或前端 APP 等所需预测推理能力的位置,通过调用 API,传递原始数据,由 AI 推理服务完成预测推理后 而对于 AI 推理来说,其调用需求会随着业务的涨落而涨落,会出现白天高、夜间低的现象,而和 AI 训练时的较固定计算周期和运行时长而有所不同。 同时,目前上面提供的 AI 推理,由于比较简单,并无需使用 GPU。而在模型较复杂,计算量较大的情况下,使用 GPU 将能进一步加速推理速度。 GPU 的使用,可以为 AI 推理的速度带来数量级的加速,将有些需要使用 CPU 秒级的推理,降低到使用 GPU 的10ms级。

    8.8K643发布于 2018-04-03
  • 转载:【AI系统】推理系统引言

    推理的最终目标,便是将训练好的模型部署到实际的生产环境中,使 AI 真正运行起来,服务于日常生活。推理系统,是一个专门用于部署神经网络模型,执行推理预测任务的 AI 系统。 推理引擎,则是推理系统中的重要组成部分,它主要负责 AI 模型的加载与执行。 为了应对这些挑战,推理引擎的在线部署和优化显得尤为重要。首先,推理引擎需要支持不同 AI 框架训练得到的模型的转换。 其中,对于卷积 kernel 算子的优化主要关注 Im2Col、Winograd 等算法的应用。这些算法通过特定的数学变换和近似,减少了卷积操作的计算复杂度,从而提升了推理速度。 人工客服应用推理引擎或推理系统在人工客服和 AI 对话方面有广泛的应用。以下是一些相关的内容:智能客服:推理引擎可以用于实现智能客服系统,能够理解用户的问题并提供准确的答案。

    1.1K10编辑于 2024-12-12
  • 转载:【AI系统】推理引擎架构

    在深入探讨推理引擎的架构之前,让我们先来概述一下推理引擎的基本概念。推理引擎作为 AI 系统中的关键组件,负责将训练好的模型部署到实际应用中,执行推理任务,从而实现智能决策和自动化处理。 随着 AI 技术的快速发展,推理引擎的设计和实现面临着诸多挑战,同时也展现出独特的优势。 本文将详细阐述推理引擎的特点、技术挑战以及如何应对这些挑战,为读者提供一个较为全面的视角。 易用性 易用性是衡量一个 AI 推理引擎是否能够被广泛采纳和高效利用的关键指标。 高性能 高性能是推理引擎的灵魂,它直接决定了 AI 应用的响应速度、资源消耗以及用户体验。 它的设计使得开发者可以在没有 GPU 的情况下,仍然获得较快的推理速度。 MACE:MACE 是小米推出的移动端 AI 计算引擎,全称为 Mobile AI Compute Engine。

    1.7K10编辑于 2024-12-12
  • 来自专栏JadePeng的技术博客

    知识图谱推理与实践 (2) -- 基于jena实现规则推理

    本章,介绍 基于jena的规则引擎实现推理,并通过两个例子介绍如何coding实现。 规则引擎概述 jena包含了一个通用的规则推理机,可以在RDFS和OWL推理机使用,也可以单独使用。 规则推理demo2 -- 关联交易 我们再来看上一篇文章中提到的那个金融图谱: ? 陈华钧老师PPT里,有一个推理任务: 1) 执掌一家公司就一定是这家公司的股东; 2) 某人同时是两家公司的股东,那么这两家公司一定有关联交易; PPT里是使用Drools来实现的,具体可以参见PPT c2)] 执行推理: GenericRuleReasoner reasoner = (GenericRuleReasoner) GenericRuleReasonerFactory.theInstance c2) -> (?c :关联交易 ?

    4.5K30发布于 2020-02-18
  • AI系统突破几何推理难题

    AlphaGeometry:奥林匹克级别的几何AI系统某机构研究团队在《自然》杂志发表论文,介绍能够解决复杂几何问题的AI系统AlphaGeometry,其表现接近人类奥林匹克数学竞赛金牌得主水平。 神经符号系统架构AlphaGeometry采用神经符号架构,包含神经语言模型和符号推理引擎。 语言模型擅长识别数据中的模式关系,可快速预测潜在有用的几何构造(如点、线、圆),符号引擎则基于形式逻辑进行严格推理。两者协同工作类似于"快慢思考"机制:语言模型提供直觉性构想,符号引擎进行理性决策。 若无法求解,语言模型会从无限可能中预测最有效的补充构造,这些构造为符号引擎开辟新的推理路径,通过循环迭代直至找到解决方案。 该研究展示了使用大规模合成数据训练AI系统的潜力,为下一代AI系统的知识发现机制提供了新范式。团队已开源AlphaGeometry代码和模型,期待推动数学、科学和AI领域的创新发展。

    37000编辑于 2025-08-31
  • 转载:【AI系统】推理流程全景

    部署态中的 AI 模型已经完成了训练阶段,被部署到实际应用环境中,如云端服务器、边缘设备、移动应用等,用于实时或近实时地进行推理预测的过程。 此时,AI 模型不再处于学习状态,而是作为服务的一部分,接受输入数据并输出预测结果。云端部署的推理系统更像传统 Web 服务,在边缘侧部署的模型更像手机应用和 IOT 应用系统。 移动设备:如智能手机、平板电脑、智能穿戴设备等,它们内置处理器、内存和操作系统,能够运行轻量级推理应用,实现基于 AI 的个性化服务、实时分析或设备自主决策。 云端部署推理系统的确具备诸多显著优点,使其成为众多企业和课程首选的部署方式。然而,云端部署并非万能解决方案,也伴随着一些特定的挑战。AI 的服务成本非常高昂。 综上所述,云侧推理和部署的全流程涵盖了模型全生命周期管理、服务接口设计、请求处理与调度、推理执行、系统监控以及硬件优化等多个环节,旨在构建一个高效、稳定、可扩展的云上 AI 服务环境。

    1.1K10编辑于 2024-12-12
  • 来自专栏AI系统

    AI系统】推理文件格式

    通过使用 Protobuf,ONNX 能够在不同的 AI 框架之间高效地传输模型数据。 比如 ONNX 就是一种跨平台的模型序列化格式,可以在不同的 AI 框架和运行时环境之间共享模型。Ⅲ. 所以在通常情况下,在需要使用模型进行推理时再将其移动到 CPU 上。Ⅱ. 很多 AI 推理框架都是用的 FlatBuffers,最主要的有以下两个:MNN: 阿里巴巴的神经网络推理引擎,是一个轻量级的神经网络引擎,支持深度学习的推理与训练。 MindSpore Lite: 一种适用于端边云场景的新型开源深度学习训练/推理框架,提供离线转换模型功能的工具,支持多种类型的模型转换,转换后的模型可用于推理

    1.9K10编辑于 2024-12-05
领券