搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI系统
【AI系统】推理参数
本文将介绍 AI 模型网络参数方面的一些基本概念，以及硬件相关的性能指标，为后面让大家更了解模型轻量化做初步准备。一个 GFLOPS（GigaFLOPS）等于每秒十亿（=10^{9} ）次浮点运算。一个 TFLOPS（TeraFLOPS）等于每秒一万亿（=10^{12} ）次浮点运算。
1.3K10编辑于 2024-12-02
来自专栏AI系统
【AI系统】推理系统介绍
推理系统是一个专门用于部署神经网络模型，执行推理预测任务的 AI 系统。它类似于传统的 Web 服务或移动端应用系统，但专注于 AI 模型的部署与运行。最后，通过比较推理系统与推理引擎的流程结构，将进一步揭示两者在设计和实施时需考虑的关键要素。AI 生命周期在日常生活中，深度学习的相关方法已经广泛的部署到各类的应用当中。其中，对于关键点的检测可以通过如 Faster R-CNN、YOLO 等 AI 模型进行输入到输出的映射与转换。根据上图示的 AI 框架、推理系统与硬件之间的关系，可以看到，除了应对应用场景的多样化需求，推理系统还需克服由不同训练框架和推理硬件所带来的部署环境多样性挑战，这些挑战不仅增加了部署优化和维护的难度，而且易于出错需要考虑到 AI 框架的不断更新，特别是针对训练优化的迭代，而某些框架甚至不支持在线推理，系统需要具备足够的兼容性。为了支持多种框架，可以利用模型转换工具，将不同框架的模型转换为一种通用的中间表示。
1.8K10编辑于 2024-12-02
来自专栏皮振伟的专栏
漫谈AI推理与存储
AI存储核心需求模型权重 LLM模型权重是AI推理最基础的持久化存储数据，核心特征为一次写入、多次读取。红色（传统拷贝）：性能最差，需经过多次用户态、内核态数据拷贝，但通用性最强，适配所有场景，这一点在Python主导的AI推理生态中尤其重要。基于GD2FS的AI推理架构基于GD2FS构建的LLM推理协同架构，核心是重塑端到端的AI推理链路，打破传统推理引擎、存储、调度系统的割裂状态。 AI推理是典型的系统性工程，性能优化不能局限于单一模块，需实现存储、推理、调度的全局协同。、缓存吞吐、存储成本、资源调度等核心痛点，为超长上下文、高并发、大规模AI推理场景提供底层支撑。
8910编辑于 2026-06-05
来自专栏AI系统
【AI系统】推理系统架构
推理系统架构是 AI 领域中的一个关键组成部分，它负责将训练好的模型应用于实际问题，从而实现智能决策和自动化。为了加快推理速度、减少计算资源的消耗，工程师们常常会使用模型压缩技术，如量化、剪枝和蒸馏。此外，硬件加速（如 GPU、TPU）和专用芯片（如 AI 加速器）也是提高推理效率的重要手段。多框架支持：兼容 TensorFlow、PyTorch、ONNX 等主流 AI 框架。模型优化：集成 TensorRT 等优化工具，进一步提升模型推理性能。安全性：支持安全传输和访问控制，保障推理服务的安全性。作为一个强大的推理框架，Triton 能够满足多样化的 AI 应用需求，帮助企业和开发者构建高效、可靠的推理服务。这一功能基于其动态模型发现与加载机制，使得 AI 应用能够迅速适应市场需求变化，如模型精度提升、新功能上线等。配合版本控制和滚动更新策略，可确保服务连续性不受影响。
2K10编辑于 2024-12-02
来自专栏AI系统
【AI系统】推理系统引言
推理的最终目标，便是将训练好的模型部署到实际的生产环境中，使 AI 真正运行起来，服务于日常生活。推理系统，是一个专门用于部署神经网络模型，执行推理预测任务的 AI 系统。推理引擎，则是推理系统中的重要组成部分，它主要负责 AI 模型的加载与执行。通过综合运用这些方法，可以在满足服务需要的同时，实现模型的高效推理和部署。在线部署和优化推理引擎的在线部署和优化是确保 AI 模型能够在实际应用中高效运行的关键环节。为了应对这些挑战，推理引擎的在线部署和优化显得尤为重要。首先，推理引擎需要支持不同 AI 框架训练得到的模型的转换。人工客服应用推理引擎或推理系统在人工客服和 AI 对话方面有广泛的应用。以下是一些相关的内容：智能客服：推理引擎可以用于实现智能客服系统，能够理解用户的问题并提供准确的答案。
1.3K10编辑于 2024-12-02
来自专栏AI系统
【AI系统】推理内存布局
从前文的简单介绍中，我们提到了可以从内存布局上对推理引擎的 Kernel 进行优化，接下来，我们将先介绍 CPU 和 GPU 的基础内存知识，NCHWX 内存排布格式以及详细展开描述 MNN 这个针对移动应用量身定制的通用高效推理引擎中通过数据内存重新排布进行的内核优化 NCHWX在推理引擎中，或者底层 Kernel 层实际上为了更加适配到 DSA 或者 ASIC 专用芯片会使用 NCHWX 内存排布格式，那么下面我们来详细了解一下 NCHWX 数据排布格式。 MNNMNN 是一个轻量级的深度学习端侧推理引擎，核心解决神经网络模型在端侧推理运行问题，涵盖神经网络模型的优化、转换和推理。
1.3K10编辑于 2024-12-06
来自专栏AI系统
【AI系统】推理引擎架构
在深入探讨推理引擎的架构之前，让我们先来概述一下推理引擎的基本概念。推理引擎作为 AI 系统中的关键组件，负责将训练好的模型部署到实际应用中，执行推理任务，从而实现智能决策和自动化处理。随着 AI 技术的快速发展，推理引擎的设计和实现面临着诸多挑战，同时也展现出独特的优势。本文将详细阐述推理引擎的特点、技术挑战以及如何应对这些挑战，为读者提供一个较为全面的视角。易用性易用性是衡量一个 AI 推理引擎是否能够被广泛采纳和高效利用的关键指标。高性能高性能是推理引擎的灵魂，它直接决定了 AI 应用的响应速度、资源消耗以及用户体验。它的设计使得开发者可以在没有 GPU 的情况下，仍然获得较快的推理速度。 MACE：MACE 是小米推出的移动端 AI 计算引擎，全称为 Mobile AI Compute Engine。
2K21编辑于 2024-12-05
来自专栏AI系统
【AI系统】推理流程全景
部署态中的 AI 模型已经完成了训练阶段，被部署到实际应用环境中，如云端服务器、边缘设备、移动应用等，用于实时或近实时地进行推理预测的过程。此时，AI 模型不再处于学习状态，而是作为服务的一部分，接受输入数据并输出预测结果。云端部署的推理系统更像传统 Web 服务，在边缘侧部署的模型更像手机应用和 IOT 应用系统。移动设备：如智能手机、平板电脑、智能穿戴设备等，它们内置处理器、内存和操作系统，能够运行轻量级推理应用，实现基于 AI 的个性化服务、实时分析或设备自主决策。云端部署推理系统的确具备诸多显著优点，使其成为众多企业和课程首选的部署方式。然而，云端部署并非万能解决方案，也伴随着一些特定的挑战。AI 的服务成本非常高昂。综上所述，云侧推理和部署的全流程涵盖了模型全生命周期管理、服务接口设计、请求处理与调度、推理执行、系统监控以及硬件优化等多个环节，旨在构建一个高效、稳定、可扩展的云上 AI 服务环境。
1.7K11编辑于 2024-12-02
来自专栏贾志刚-OpenCV学堂
YOLOv9 官方模型推理性能实测
前言自从YOLOv9出来以后，很多人都问我是不是从此以后YOLOv9就是YOLO系列最厉害的了，我其实很难从正面给出答案，毕竟没有调查权就发言权。今天我就斗胆稍微扒一扒YOLOv9的模型跟推理。 mAP指标如下：我尝试下载YOLOv9-T、YOLOv9-S、YOLOv9-M三种模型均以失败而告终，只能下载YOLOv9-C这个模型，此外YOLOv9-E也可以下载，下载以后发现YOLOv9-C大小为导出与推理测试用官方的命令行然后直接推理这个模型，看一下耗时（GPU3050ti）再导出ONNX格式模型发现第一是导出ONNX格式模型巨大无比、这种肯定不能随便就实时，必须得好卡；第二是里面导出信息居然还有虽然速度感人，说它是YOLOv8结构的魔改谁会不信，但是是不是真涨点了我不敢乱说，而且这个魔改以后模型变得更大了，推理耗时更多了，就这一帮人跟后面吹，真是世风日下，人心不古！
1.1K10编辑于 2024-03-22
来自专栏Tencent Serverless 官方专栏
使用 Serverless 进行 AI 预测推理
使用 Serverless 进行 AI 预测推理概览在 AI 项目中，通常大家关注的都是怎么进行训练、怎么调优模型、怎么来达到满意的识别率。而常规的部署方案，通常都是将模型部署到一台独立设备上，对外以 API 接口的形式提供服务，业务模块或前端 APP 等所需预测推理能力的位置，通过调用 API，传递原始数据，由 AI 推理服务完成预测推理后而对于 AI 推理来说，其调用需求会随着业务的涨落而涨落，会出现白天高、夜间低的现象，而和 AI 训练时的较固定计算周期和运行时长而有所不同。同时，目前上面提供的 AI 推理，由于比较简单，并无需使用 GPU。而在模型较复杂，计算量较大的情况下，使用 GPU 将能进一步加速推理速度。 GPU 的使用，可以为 AI 推理的速度带来数量级的加速，将有些需要使用 CPU 秒级的推理，降低到使用 GPU 的10ms级。
8.8K643发布于 2018-04-03
转载：【AI系统】推理系统引言
推理的最终目标，便是将训练好的模型部署到实际的生产环境中，使 AI 真正运行起来，服务于日常生活。推理系统，是一个专门用于部署神经网络模型，执行推理预测任务的 AI 系统。推理引擎，则是推理系统中的重要组成部分，它主要负责 AI 模型的加载与执行。通过综合运用这些方法，可以在满足服务需要的同时，实现模型的高效推理和部署。在线部署和优化推理引擎的在线部署和优化是确保 AI 模型能够在实际应用中高效运行的关键环节。为了应对这些挑战，推理引擎的在线部署和优化显得尤为重要。首先，推理引擎需要支持不同 AI 框架训练得到的模型的转换。人工客服应用推理引擎或推理系统在人工客服和 AI 对话方面有广泛的应用。以下是一些相关的内容：智能客服：推理引擎可以用于实现智能客服系统，能够理解用户的问题并提供准确的答案。
1.1K10编辑于 2024-12-12
转载：【AI系统】推理引擎架构
在深入探讨推理引擎的架构之前，让我们先来概述一下推理引擎的基本概念。推理引擎作为 AI 系统中的关键组件，负责将训练好的模型部署到实际应用中，执行推理任务，从而实现智能决策和自动化处理。随着 AI 技术的快速发展，推理引擎的设计和实现面临着诸多挑战，同时也展现出独特的优势。本文将详细阐述推理引擎的特点、技术挑战以及如何应对这些挑战，为读者提供一个较为全面的视角。易用性易用性是衡量一个 AI 推理引擎是否能够被广泛采纳和高效利用的关键指标。高性能高性能是推理引擎的灵魂，它直接决定了 AI 应用的响应速度、资源消耗以及用户体验。它的设计使得开发者可以在没有 GPU 的情况下，仍然获得较快的推理速度。 MACE：MACE 是小米推出的移动端 AI 计算引擎，全称为 Mobile AI Compute Engine。
1.7K10编辑于 2024-12-12
来自专栏AI系统
【AI系统】推理文件格式
通过使用 Protobuf，ONNX 能够在不同的 AI 框架之间高效地传输模型数据。比如 ONNX 就是一种跨平台的模型序列化格式，可以在不同的 AI 框架和运行时环境之间共享模型。Ⅲ. 所以在通常情况下，在需要使用模型进行推理时再将其移动到 CPU 上。Ⅱ. 很多 AI 推理框架都是用的 FlatBuffers，最主要的有以下两个：MNN：阿里巴巴的神经网络推理引擎，是一个轻量级的神经网络引擎，支持深度学习的推理与训练。 MindSpore Lite: 一种适用于端边云场景的新型开源深度学习训练/推理框架，提供离线转换模型功能的工具，支持多种类型的模型转换，转换后的模型可用于推理。
1.9K10编辑于 2024-12-05
AI系统突破几何推理难题
AlphaGeometry：奥林匹克级别的几何AI系统某机构研究团队在《自然》杂志发表论文，介绍能够解决复杂几何问题的AI系统AlphaGeometry，其表现接近人类奥林匹克数学竞赛金牌得主水平。神经符号系统架构AlphaGeometry采用神经符号架构，包含神经语言模型和符号推理引擎。语言模型擅长识别数据中的模式关系，可快速预测潜在有用的几何构造（如点、线、圆），符号引擎则基于形式逻辑进行严格推理。两者协同工作类似于"快慢思考"机制：语言模型提供直觉性构想，符号引擎进行理性决策。若无法求解，语言模型会从无限可能中预测最有效的补充构造，这些构造为符号引擎开辟新的推理路径，通过循环迭代直至找到解决方案。该研究展示了使用大规模合成数据训练AI系统的潜力，为下一代AI系统的知识发现机制提供了新范式。团队已开源AlphaGeometry代码和模型，期待推动数学、科学和AI领域的创新发展。
37000编辑于 2025-08-31
转载：【AI系统】推理流程全景
部署态中的 AI 模型已经完成了训练阶段，被部署到实际应用环境中，如云端服务器、边缘设备、移动应用等，用于实时或近实时地进行推理预测的过程。此时，AI 模型不再处于学习状态，而是作为服务的一部分，接受输入数据并输出预测结果。云端部署的推理系统更像传统 Web 服务，在边缘侧部署的模型更像手机应用和 IOT 应用系统。移动设备：如智能手机、平板电脑、智能穿戴设备等，它们内置处理器、内存和操作系统，能够运行轻量级推理应用，实现基于 AI 的个性化服务、实时分析或设备自主决策。云端部署推理系统的确具备诸多显著优点，使其成为众多企业和课程首选的部署方式。然而，云端部署并非万能解决方案，也伴随着一些特定的挑战。AI 的服务成本非常高昂。综上所述，云侧推理和部署的全流程涵盖了模型全生命周期管理、服务接口设计、请求处理与调度、推理执行、系统监控以及硬件优化等多个环节，旨在构建一个高效、稳定、可扩展的云上 AI 服务环境。
1.1K10编辑于 2024-12-12
转载：【AI系统】推理系统介绍
推理系统是一个专门用于部署神经网络模型，执行推理预测任务的 AI 系统。它类似于传统的 Web 服务或移动端应用系统，但专注于 AI 模型的部署与运行。最后，通过比较推理系统与推理引擎的流程结构，将进一步揭示两者在设计和实施时需考虑的关键要素。AI 生命周期在日常生活中，深度学习的相关方法已经广泛的部署到各类的应用当中。其中，对于关键点的检测可以通过如 Faster R-CNN、YOLO 等 AI 模型进行输入到输出的映射与转换。根据上图示的 AI 框架、推理系统与硬件之间的关系，可以看到，除了应对应用场景的多样化需求，推理系统还需克服由不同训练框架和推理硬件所带来的部署环境多样性挑战，这些挑战不仅增加了部署优化和维护的难度，而且易于出错需要考虑到 AI 框架的不断更新，特别是针对训练优化的迭代，而某些框架甚至不支持在线推理，系统需要具备足够的兼容性。为了支持多种框架，可以利用模型转换工具，将不同框架的模型转换为一种通用的中间表示。
1.2K10编辑于 2024-12-12
转载：【AI系统】推理系统架构
推理系统架构是 AI 领域中的一个关键组成部分，它负责将训练好的模型应用于实际问题，从而实现智能决策和自动化。为了加快推理速度、减少计算资源的消耗，工程师们常常会使用模型压缩技术，如量化、剪枝和蒸馏。此外，硬件加速（如 GPU、TPU）和专用芯片（如 AI 加速器）也是提高推理效率的重要手段。多框架支持：兼容 TensorFlow、PyTorch、ONNX 等主流 AI 框架。模型优化：集成 TensorRT 等优化工具，进一步提升模型推理性能。安全性：支持安全传输和访问控制，保障推理服务的安全性。作为一个强大的推理框架，Triton 能够满足多样化的 AI 应用需求，帮助企业和开发者构建高效、可靠的推理服务。这一功能基于其动态模型发现与加载机制，使得 AI 应用能够迅速适应市场需求变化，如模型精度提升、新功能上线等。配合版本控制和滚动更新策略，可确保服务连续性不受影响。
1.8K11编辑于 2024-12-12
全球AI推理扩展技术解析
全球跨区域AI推理扩展技术解析随着组织越来越多地将生成式AI功能集成到应用程序中，AI推理工作负载的规模和重要性不断增长。组织在维护AI驱动应用程序的一致性能、可靠性和可用性方面面临新挑战。核心功能与技术架构推理配置文件机制推理配置文件定义了基础模型和一个或多个可路由模型调用请求的区域。组织可以监控和分析其推理请求在AWS全球基础设施中的分布。数据安全与合规性全局跨区域推理保持高标准的数据安全性。跨区域推理期间传输的数据经过加密，并保持在安全的AWS网络内。 AI应用提供了多项技术优势：峰值需求期间的增强吞吐量 - 通过自动将请求路由到具有可用容量的区域，在需求高峰期间提供改进的弹性成本效益 - 与地理跨区域推理相比，输入和输出令牌定价节省约10%简化监控 AI应用程序、高容量工作负载和灾难恢复场景，通过使用AWS全球基础设施提供增强的弹性。
26900编辑于 2025-10-18
来自专栏云上修行
vLLM: 加速AI推理的利器
在ROCm（AMD GPU）上，相反，支持FP8_E4M3以满足常见的推理标准。通过减少KV缓存的使用，系统能够处理更大的负载并更快地进行推理。
3.6K10编辑于 2024-07-22
开源AI模型与推理优化周报
Replicate Intelligence #6趋势模型来自某机构的新语言模型新的 Gemma2 模型以 9B 和 27B 两种参数规模发布。大家都在讨论交替的全局/局部注意力层，这一点在 Character.AI 的博文中也有提及（见下文）。博文 | 排行榜研究雷达如何真正优化 AI 推理Character.AI 每秒处理 2 万次推理查询。内部 AI 实验者 @fofrAI 已经取得了不错的结果，但这并不总是容易的。通过博文学习如何选择正确的版本、编写高质量的提示词以及设置合适的参数。博文后会有期以上便是本周的全部内容。
8200编辑于 2026-04-15

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

【AI系统】推理参数

【AI系统】推理系统介绍

漫谈AI推理与存储

【AI系统】推理系统架构

【AI系统】推理系统引言

【AI系统】推理内存布局

【AI系统】推理引擎架构

【AI系统】推理流程全景

YOLOv9 官方模型推理性能实测

使用 Serverless 进行 AI 预测推理

转载：【AI系统】推理系统引言

转载：【AI系统】推理引擎架构

【AI系统】推理文件格式

AI系统突破几何推理难题

转载：【AI系统】推理流程全景

转载：【AI系统】推理系统介绍

转载：【AI系统】推理系统架构

全球AI推理扩展技术解析

vLLM: 加速AI推理的利器

开源AI模型与推理优化周报

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐