搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏贾志刚-OpenCV学堂
多线程界面化、ONNXRUNTIME + YOLOv8推理演示
、实例分割、姿态评估的推理。基本设计思路这个系列我好久没有更新了，今天更新一篇PyQT5中如何实现YOLOv8 + ONNRUNTIME推理界面化与多线程支持。首先需要实现三个类分别完成YOLOv8的对象检测、实例分割、姿态评估模型推理。然后在实现界面类，构建如图：推理类型通过单选按钮实现选择，支持对象检测、实例分割、姿态评估。推理按钮开发推理演示，支持视频与图像文件，开始推理会单独开启一个推理线程实现推理，推理结果通过信号发送到指定的槽函数处理之后更新界面，通过信号与槽机制实现界面线程跟推理线程相互独立与数据共享。 app.setStyle('Windows') # 初始化桌面容器 main_win = QtWidgets.QMainWindow() # 设置APP窗口名称 main_win.setWindowTitle("YOLOv8多线程推理应用演示
2K20编辑于 2023-08-22
来自专栏GiantPandaCV
NCNN+INT8+YOLOV4量化模型和实时推理
xx.jpg 调用int8模型进行推理打开vs2019，建立新的工程，配置的步骤我在上一篇博客已经详细说过了，再狗头翻出来祭给大家： https://zhuanlan.zhihu.com/p/368653551 禁掉，不用了换成int8推理把线程改成你之前制作int8模型的那个线程模型也替换掉具体如下： ? 代码需要修改的几点走到这里，就可以愉快的推理了 ? （问的好，2g显存老古董跑起来怕电脑炸了）对比之前的fp16模型，明显在input_size相同的情况下快了40%-70%，且精度几乎没有什么损耗总结来说，新版ncnn的int8量化推理确实是硬货，后续会尝试更多模型的int8推理，做对比实验给各位网友看所有的文件和修改后的代码放在这个仓库里，欢迎大家白嫖： https://github.com/pengtougu/ncnn-yolov4-int8
3K30发布于 2021-05-18
来自专栏贾志刚-OpenCV学堂
两行代码搞定YOLOv8各种模型推理
微信公众号：OpenCV学堂关注获取更多计算机视觉与深度学习知识前言大家好，YOLOv8 框架本身提供的API函数是可以两行代码实现 YOLOv8 模型推理，这次我把这段代码封装成了一个类，只有40 行代码左右，可以同时支持YOLOv8对象检测、实例分割、姿态评估模型的GPU与CPU上推理演示。程序实现 YOLOv8框架支持的函数推理会自动识别模型的类型是对象检测、实例分割、姿态评估中哪一种，有GPU支持的情况下，默认会使用GPU推理。推理运行在一个单独的PyQT线程中，通过信号与槽机制实现推理结果返回与更新。 __init__() self.settings = settings self.detector = YOLOv8PtInference(settings)
1.8K40编辑于 2023-08-22
来自专栏机器之心
20+移动端硬件，Int8极速推理，端侧推理引擎Paddle Lite 2.0 正式发布
机器之心发布机器之心编辑部今年 8 月，飞桨（PaddlePaddle）对外发布面向终端和边缘设备的端侧推理引擎 Paddle Lite Beta 版。 Paddle Lite 的 Github 链接： https://github.com/PaddlePaddle/Paddle-Lite Paddle Lite 致力于提供一套功能完整、易用、高性能的端侧推理引擎在 AI 技术落地中，推理阶段与实际应用相关联，直接关系到用户的体验，是非常具有挑战性的一环。 ? 图 1 .典型端侧 AI 应用部署场景 Paddle Lite 是飞桨产品栈中用于端侧高性能轻量化 AI 应用部署的推理引擎，核心用途是将训练出的模型在不同硬件平台场景下快速部署，根据输入数据，执行预测推理得到计算结果更好的性能 ARM CPU (v7,v8) 上 float32 和 int8 两种计算模式的预测性能均得到提升（见图 3，图 4），详情可以参考最新的 Benchmark：链接：https://paddlepaddle.github.io
1.3K20发布于 2019-11-11
在K8s上部署分离式LLM推理
本文将概述如何在Kubernetes上部署分离式推理，探讨不同的生态系统方案及其在集群上的执行方式，并评估它们开箱即用的能力。聚合式与分离式推理有何不同？在深入了解Kubernetes配置文件之前，先理解LLM的两种推理部署模式会有所帮助：在聚合式服务中，单个进程（或紧密耦合的进程组）处理从输入到输出的整个推理生命周期。为什么调度是Kubernetes上多Pod推理性能的关键部署多Pod推理工作负载（无论是模型并行的聚合模型还是分离模型）只是成功的一半。调度器会成功放置它们，但不知道它们构成单个推理管道。推理框架如何协调扩缩容推理框架通过具有推理特定指标可见性的自定义自动扩缩器在应用程序层面解决扩缩容问题。
2600编辑于 2026-04-16
使用 OpenVINO™ C# 异步推理接口部署YOLOv8
以下是文章，收藏看看使用 OpenVINO™ C# 异步推理接口部署YOLOv8 ——在Intel IGPU 上速度依旧飞起！！在上一篇文章中《使用 OpenVINO™ C++ 异步推理接口部署YOLOv8 ——在Intel IGPU 上实现80+FPS视频推理》我们已经实现了使用OpenVINO™ C++ 异步API接口部署YOLOv8 一些C#开发者也想在使用OpenVINO™在C#中实现异步推理，那么该如何实现呢？那么他来了，下面我们将会演示如何使用OpenVINO™异步接口在C#中部署YOLOv8 实现视频快速推理。项目环境推理设备：OpenVINO IGPU CPU: Intel Core i7-1165G7 IGPU: Intel Iris Xe Graphics 推理模型: YOLOv8s 代码实现 4.1 定义YOLOv8数据处理方法首先定义了一下YOLOv8模型前后处理的方法，包括输入数据处理接口pre_process(cv::Mat* img, int length, float
48600编辑于 2025-07-21
来自专栏GiantPandaCV
深度学习Int8的部署推理原理和经验验证
这篇说的是如何用全整形进行推理，这部分我用c代码全部实现了(下次一定写稿)。个人观点，这个图并不能下结论：per-channel和per-tensor在int8量化推理下没有太大的差异，因为这只量化weight，而没有考虑其他，比如量化activation。论文附录有炼丹配方深度学习Int8的部署推理原理和经验验证论文出处：《Integer Quantization for Deep Learning Inference Principles and 这篇说的是如何用全整形进行推理，这部分我用c代码全部实现了(下次一定写稿)。个人观点，这个图并不能下结论：per-channel和per-tensor在int8量化推理下没有太大的差异，因为这只量化weight，而没有考虑其他，比如量化activation。
2.5K20编辑于 2022-05-27
来自专栏机器之心
FP8模型不再挑卡！DeepSeek推理成本减半速度翻番，清华团队开源「赤兔」推理引擎
今天，清华系科创企业清程极智与清华大学翟季冬教授团队联合宣布开源大模型推理引擎「赤兔」（Chitu），率先实现了非 H 卡设备（英伟达 Hopper 架构之前的 GPU 卡及各类国产卡）运行原生 FP8 赤兔引擎核心优势：全场景性能优化与架构适应性随着 DeepSeek V3 和 R1 等新一代模型采用 FP8 混合精度训练并发布，企业面临新的部署挑战。本次开源的技术突破是实现非 H 卡设备原生运行 DeepSeek FP8 精度模型。「我们没有走简单的量化路线，而是通过在算子内部高效处理 FP8 数据，确保模型推理质量不受任何影响。」汤雄超表示：「具体来说，我们对 GeMM、MoE 等一系列关键算子进行了指令级的优化，实现了 FP8 数据的原生处理能力。」清程团队强调，显著降低推理成本对推广 AI 应用至关重要，赤兔推理引擎在设计之初就将降低用户的算力成本纳入核心考量。
59610编辑于 2025-03-14
在K8s上部署分离式LLM推理
在Kubernetes上部署分离式LLM推理工作负载随着大语言模型（LLM）推理工作负载日益复杂，单一的整体服务进程开始触及自身极限。本文概述了如何在Kubernetes上部署分离式推理，探讨了不同的生态系统解决方案及其在集群上的执行方式，并评估了它们开箱即用的功能。聚合式推理与分离式推理有何不同？在深入Kubernetes配置文件之前，了解LLM的两种推理部署模式会有所帮助：在聚合式服务中，单个进程（或紧密耦合的进程组）处理从输入到输出的整个推理生命周期。为什么调度是在Kubernetes上实现多Pod推理性能的关键部署多Pod推理工作负载（无论是模型并行的聚合模型还是分离式模型）只是成功的一半。推理框架如何协调扩展推理框架通过具有推理特定指标可见性的自定义自动扩展器，在应用程序级别解决扩展问题。
10410编辑于 2026-04-09
来自专栏贾志刚-OpenCV学堂
三种主流模型部署框架YOLOv8推理演示
对YOLOv5~YOLOv8的系列模型，均可以通过C++推理实现模型部署。这里以YOLOv8为例，演示了YOLOv8对象检测模型在OpenVINO、ONNXRUNTIME、TensorRT三个主流框架上C++推理演示效果。 C++类，通过客户端三行代码即可调用，演示效果分别如下： OpenVINO + CPU YOLOv8对象检测推理 ONNXRUNTIME + GPU YOLOv8对象检测推理 TensorRT + GPU YOLOv8对象检测推理客户端初始化代码如下：初始化OpenVINO+YOLOv8封装类实例 std::shared_ptrdetector(new YOLOv8OpenVINODetector std::shared_ptrdetector(new YOLOv8TRTDetector()); 客户端推理代码如下： detector->initConfig("D:/python/my_yolov8
2.6K10编辑于 2023-08-22
来自专栏人人都是架构师
HugggingFace 推理 API、推理端点和推理空间使用介绍
本文将介绍 HuggingFace 的推理 API、推理端点和推理空间的使用方法。页面小组件推理 API 有两种使用方式，一种是在模型页面的右侧找到推理 API 的小组件页面，初始界面如下图所示：我们可以在这个页面中上传图片，然后就可以看到模型进行推理运行，等一会后推理结果就出来了 (Endpoint) 推理 API 虽然方便，但推理 API 一般用于测试和验证，由于速率限制，官方不推荐在生产环境中使用，而且也不是所有模型都有提供推理 API。信息确认无误后点击Create Endpoint按钮创建推理端点，创建成功后可以进入推理端点的详情页面看到如下信息：其中Endpoint URL就是部署好的推理端点地址，我们可以跟调用推理 API 总结本文介绍了 HuggingFace 的推理 API、推理端点和推理空间的使用方法，推理 API 是免费的，使用 HuggingFace 自建的 API 服务，推理端点是部署自己专属的 API 服务
4.4K40编辑于 2023-09-17
来自专栏贾志刚-OpenCV学堂
OpenCV4.8+YOLOv8对象检测C++推理演示
自从YOLOv5更新成7.0版本，YOLOv8推出以后，OpenCV4.6以前的版本都无法再加载导出ONNX格式模型了，只有OpenCV4.7以上版本才可以支持最新版本YOLOv5与YOLOv8模型的推理部署首先看一下最新版本的YOLOv5与YOLOv8的输入与输出格式：推理演示截图： ni hao std::string onnxpath = "D:/python/yolov5-7.0/yolov5s.onnx frame.rows; int _max = std::max(h, w); cv::Mat image = cv::Mat::zeros(cv::Size(_max, _max), CV_8UC3 roi)); float x_factor = image.cols / 640.0f; float y_factor = image.rows / 640.0f; // 推理 ; int idx = classIds[index]; cv::rectangle(frame, boxes[index], colors[idx % 5], 2, 8)
2.8K31编辑于 2023-09-27
来自专栏CreateAMind
因果推理比概率推理更难吗？
统计和因果推理中的许多任务可以被解释为合适的形式语言中的蕴含问题。我们问，从计算的角度来看，对于因果概率语言来说，这些问题是否比纯概率（或“关联”）语言更困难。尽管从多种意义上讲，因果推理确实更复杂——无论是表达上的还是推理上的——我们表明因果蕴涵（或可满足性）问题可以系统地、稳健地简化为纯粹的概率问题。因此，计算复杂性不会增加。毫无争议的是，因果推理比纯粹的概率或统计推理更困难。后者似乎已经足够困难了：估计概率、根据过去的观察预测未来事件、确定统计显着性、在统计假设之间做出裁决——这些已经是艰巨的任务，长期陷入争议。因果推理问题似乎只会让我们的任务变得更加困难。推断因果效应、预测干预结果、确定因果方向、学习因果模型——这些问题通常需要统计推理，但也对研究者提出更多要求。从推理的角度来看，概率信息远远不能确定因果信息。统计推断和因果推断的一个共同特征是，每种方法最突出的方法都可以（至少部分地）理解为试图将归纳问题转化为演绎问题。
27810编辑于 2024-03-25
智谱AI开源GLM模型：8倍加速推理与全球布局
此次发布包括先进的GLM-4系列和突破性的GLM-Z1推理模型，这些模型拥有前所未有的推理速度，并推出了专用的国际域名Z.ai。其中亮点是GLM-Z1推理模型，据称其推理速度比DeepSeek-R1快八倍。这种卓越的响应能力使其成为高效AI推理领域的领跑者，这也是智谱AI寻求进一步市场扩张的关键优势。这些紧凑而强大的模型在数学推理和通用任务中表现出色，为资源受限的环境提供了高效的解决方案，进一步拓宽了智谱AI的吸引力。所有模型均在宽松的MIT许可证下发布。对于企业客户，智谱AI继续提供其强大的模型即服务（MaaS）平台，该平台现已集成新开源的基础模型和推理模型。
1.2K180编辑于 2026-03-30
来自专栏云云众生s
具有 GPU 工作节点的托管 K8s 可加速 AIML 推理
这对推理工作负载尤为关键，因为相比训练工作，它们的资源利用更加动态。推理 AI/ML 工作负载计算需求可能很大，并需要根据处理数据量频繁地扩展或缩减。宜家开发了基于 K8s 的内部 MLOps 平台，可在内部训练 ML 模型，在云端进行推理。这使 MLOps 团队可以编排不同类型的训练模型，最终提升客户体验。当然，这些例子并不具有广泛代表性。换言之，这些公司使用 AI/ML 推理而非训练。相较训练工作负载，推理工作负载的资源利用更为动态，因为生产集群更容易遭遇用户和流量峰值。由于拥有更多晶体管处理数据，GPU 的 AI/ML 训练和推理计算性能通常优于 CPU。这也是我们在 Gcore 托管 Kubernetes 中选择 NVIDIA GPU 的原因，可提供最快的 AI/ML 工作负载训练和推理性能。
95810编辑于 2024-03-28
来自专栏DeepHub IMBA
ONNX Runtime Python 推理性能优化：8 个低延迟工程实践
在深度学习落地过程中，有一个常见的误区：一旦推理速度不达标，大家的第一反应往往是拿着模型开到，比如：做剪枝、搞蒸馏、甚至牺牲精度换小模型。实际上生产环境中的 Python 推理链路隐藏着巨大的“工程红利”。很多时候你的模型本身并不慢，慢的是低效的数据搬运、混乱的线程争用以及不合理的 Runtime 默认配置。以下是 8 个经过实战验证的低延迟优化策略，专治各种“莫名其妙的慢”。 6、CPU 推理？直接上量化如果只能用 CPU，INT8 量化或者动态量化是提速神器。配合 CPU 的向量指令集能极大减少矩阵乘法的开销。 onnx", weight_type=QuantType.QInt8, # try QInt8 or QUInt8 extra_options={"MatMulConstBOnly
38310编辑于 2025-12-30
来自专栏bit哲学院
知识推理
参考链接：从列表中移除满足Java中给定谓词元素目录  本体知识推理简介与任务分类 OWL本体语言知识推理任务 OWL本体推理实例化(materialization)的一个例子: OWL本体推理:不一致性检测 OWL本体非标准推理:计算辩解  本体推理方法与工具介绍基于Tableaux运算的方法  Tableaux运算的正确性相关工具简介基于逻辑编程改写的方法  本体推理的局限: (1) 仅支持预定义的本体公理上的推理(无法针对自定义的词汇支持灵活推理) (2) 用户无法定义自己的推理过程  引入规则推理 (1) 可以根据特定的场景定制规则,以实现用户自定义的推理过程  上下位推理查询的同时已经做出了推理!  查询触发推理查询输入类别s和o之间有无上下位关系  添加推理机  OWL推理: 构建OWL推理机构建一个含OWL推理功能的Model Model myMod = ModelFactory.createDefaultModel
2K00发布于 2020-12-13
来自专栏机器之心
推理延展到真实物理世界，英伟达Cosmos-Reason1：8B具身推理表现超过OpenAI ο1
目前他们已经发布了两个多模态 LLM：Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。在训练时，Cosmos-Reason1-8B 模型采用了 4 的张量并行化（TP=4），而 Cosmos-Reason1-56B 模型则采用了 8 的张量并行化和 2 的管道并行化（TP=8, PP=2 从表 8 可以看到，Cosmos-Reason1 模型在此基准上取得了比所有基线模型明显更好的结果，8B 和 56B 变体与各自的主干 VLM 相比均有超过 10% 的提升。然而，该团队精心设计的直觉物理数据集可使 8B 模型能够在所有三个任务上有显著提升，就展现 Cosmos-Reason1 在直觉物理推理方面的基本能力。最后，在直觉物理推理任务上，如上表 10 所示，通过精心的监督式微调数据整编和针对性训练，Cosmos-Reason1-8B 在所有任务上都取得了显著的进步，而物理 AI RL 能够进一步增强模型的空间拼图和物体持久性能力
33710编辑于 2025-03-27
来自专栏GPUS开发者
在NVIDIA Drive PX上利用TensorRT 3 进行快速INT8推理
研究人员和开发人员必须优化他们的网络，以确保低延迟推理和能源效率。多亏了NVIDIA TensorRT中新的Python API，这个过程变得更加简单。图1所示。 TensorRT优化训练过的神经网络模型，以生成可部署的运行时推理引擎。 TensorRT是一种高性能的深度学习推理优化器和用于深度学习应用程序生产部署的运行时引擎。下面几节将演示如何使用TensorRT提高该网络的推理性能，使用INT8降低了推理精度，同时保持原FP32网络的良好精度。 INT8推理与校准 DRIVE PX AutoChauffeur中的Pascal dGPU能够执行8位整数4元向量点积(DP4A，见图6)指令来加速深度神经网络推理。图7.与在Caffe中运行的原始网络相比，使用TensorRT进行INT8推理可以提高大约5倍的推理吞吐量和延迟您可以将优化后的引擎序列化到一个文件中进行部署，然后就可以在Drive PX上部署INT8
2.1K30发布于 2019-04-29
来自专栏YOLO大作战
YOLOv8+SAHI，针对小目标缺陷检测的切片辅助训练推理
本文摘要：1）分析了工业缺陷的难点；2）提供了用SAHI方法子图训练，如何自动生成对应xml的代码；3）SAHI+YOLOv8如何推理原图切分为子图训练+推理 1.工业缺陷检测介绍得益于机器视觉的不断发展和成熟在真实生产环境中，良率较高，缺陷品很难收集；4）缺陷产生跟某些工艺不稳定有关，导致缺陷存在未知的可能性；1.2 行业发展基于深度学习的缺陷检测，绝大多数还是基于有监督学习（比如YOLOv5、YOLOv8、分别是白点、脏污、划伤、起翘等，数据集大小992张["bai_dian","zang_wu","hua_shang","qi_pao"] 可以看出，绝大多数缺陷为白点，且为小目标缺陷检测3.基于YOLOv8的摄像头缺陷检测算法 YOLOv8结构框图 3.1 SAHI:针对小目标检测的切片辅助超推理库为了处理小目标检测问题，SAHI算法在fine-tuning和推理阶段提出了一种基于切片的通用框架。 SAHI方法子图训练，如何自动生成对应xml可以根据图像分辨率和缺陷所占像素值切分合适的比列，本文将原图一切为四，同时为了避免缺陷被切分掉，因此所采用重叠的方式进行切分3.3 SAHI+YOLOv8如何推理代码如下
1.6K10编辑于 2024-09-23

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

多线程界面化、ONNXRUNTIME + YOLOv8推理演示

NCNN+INT8+YOLOV4量化模型和实时推理

两行代码搞定YOLOv8各种模型推理

20+移动端硬件，Int8极速推理，端侧推理引擎Paddle Lite 2.0 正式发布

在K8s上部署分离式LLM推理

使用 OpenVINO™ C# 异步推理接口部署YOLOv8

深度学习Int8的部署推理原理和经验验证

FP8模型不再挑卡！DeepSeek推理成本减半速度翻番，清华团队开源「赤兔」推理引擎

在K8s上部署分离式LLM推理

三种主流模型部署框架YOLOv8推理演示

HugggingFace 推理 API、推理端点和推理空间使用介绍

OpenCV4.8+YOLOv8对象检测C++推理演示

因果推理比概率推理更难吗？

智谱AI开源GLM模型：8倍加速推理与全球布局

具有 GPU 工作节点的托管 K8s 可加速 AIML 推理

ONNX Runtime Python 推理性能优化：8 个低延迟工程实践

知识推理

推理延展到真实物理世界，英伟达Cosmos-Reason1：8B具身推理表现超过OpenAI ο1

在NVIDIA Drive PX上利用TensorRT 3 进行快速INT8推理

YOLOv8+SAHI，针对小目标缺陷检测的切片辅助训练推理

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐