搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏JAVA
推理延迟：解决PyTorch模型Inference阶段的RuntimeError ⏳⚡
推理延迟：解决PyTorch模型Inference阶段的RuntimeError ⏳⚡ 摘要大家好，我是默语，擅长全栈开发、运维和人工智能技术。在PyTorch模型的推理阶段，RuntimeError是常见的问题之一。这类错误通常会导致模型推理延迟，严重影响模型的实时性能和用户体验。然而，在模型推理阶段，我们常常会遇到各种RuntimeError，这些错误会导致推理过程延迟甚至失败。本文将详细分析这些错误的常见原因，并提供一系列有效的解决方法。这类错误在模型推理阶段尤为常见，因为推理过程对时间要求较高，任何小的错误都可能导致显著的延迟。表格总结解决方案优点注意事项检查和调整数据格式确保数据格式与模型期望一致使用torch.reshape时需注意目标形状确保内存充足提高推理效率，减少推理延迟需确保GPU和内存资源充足
1.3K10编辑于 2024-11-22
来自专栏bisal的个人杂货铺
11g的延迟段功能
11gR2之前的版本中，当创建一张表时，会自动分配段空间，这样做有几个弊端： 1. 初始创建表时就需要分配空间，自然会占用一些时间，如果初始化多张表，这种影响就被放大。 2. 为此，从11gR2开始，有一种新特性，叫延迟段，即延迟分配段空间。简单讲，默认将表(以及索引、LOB)的物理空间分配推迟到第一条记录插入到表中时。即有实际的数据插入表中时，再为每个对象初始化空间分配。禁用延迟段：可以禁用延迟段，是否使用延迟段是由DEFERRED_SEGMENT_CREATION参数定义的，该参数可以在会话级别修改，如果想彻底删除延迟段，可以在spfile中修改，本次以及下次启动后就会一直生效了使用SEGMENT CREATION子句：即使禁用了延迟段，还是可以使用SEGMENT CREATION在创建表时指定是否使用延迟段，例如： SQL> create table tbl_seg( 总结：这种延迟段的新特性的好处是显而易见的，弊端也很明显，至于是否应该使用，则需要根据实际业务来决定，这也是Oracle提供了禁用延迟段选项的目的。
65520发布于 2019-01-29
如何破解AI推理延迟难题：构建敏捷多云算力网络
3、推理服务层：模型服务的“前线阵地”推理平台是直接承接业务请求、完成模型推理计算的节点，具备以下特点：分布广泛，通常部署在全国多个地域，贴近用户或边缘节点；每次计算轻量，但请求量巨大、波动频繁，对响应延迟敏感 4、训练算力层：模型训练的强力引擎相比推理平台，训练任务通常对资源有更高要求，训练平台需要具备：大规模 GPU 资源，通常集中部署在少数几个高性能算力集群；高带宽、低延迟的内网传输能力，以支撑海量训练数据读写以一家专注于文生图的AI初创企业为例，在产品上线前夕突遇训练节点调度不稳定的问题，溯源发现是网络在多云资源池间连接延迟过高。 02、一张融合又隔离的网络训练和推理虽然共享底层架构，但对带宽、延迟、合规等网络指标要求迥异：■ 训练任务：带宽大、持续时间长、容忍延迟，重数据一致性与吞吐；■ 推理服务：请求频繁、对响应延迟敏感，要求链路尽可能短尤其在推理服务爆发式增长后，企业面临以下挑战：■ 难以监控整条链路（从端侧 → 中台 → 推理节点）的请求响应时延；■ 当推理响应变慢时，无法快速定位是网络问题、调度延迟，还是推理节点负载过高；■ 大量请求突发时
40010编辑于 2025-09-16
来自专栏KEN DO EVERTHING
「从0到1学习微服务SpringCloud 」11 补充篇 RabbitMq实现延迟消费和延迟重试
何为延迟队列？延迟队列就是进入该队列的消息会被延迟消费的队列。而一般的队列，消息一旦入队了之后就会被消费者马上消费。业务场景延迟队列能做什么？重试比如消费者从队列里消费消息时失败了，但是想要延迟一段时间后自动重试。如果不使用延迟队列，那么我们只能通过一个轮询扫描程序去完成。这种方案既不优雅，也不方便做成统一的服务便于开发人员使用。但是使用延迟队列的话，我们就可以轻而易举地完成。实现流程延迟消费延迟消费是延迟队列最为常用的使用模式。如下图所示，生产者产生的消息首先会进入缓冲队列（图中红色队列）。延迟重试延迟重试本质上也是延迟消费的一种。如下图所示，消费者发现该消息处理出现了异常，比如是因为网络波动引起的异常。
77640发布于 2019-05-15
来自专栏DeepHub IMBA
ONNX Runtime Python 推理性能优化：8 个低延迟工程实践
在深度学习落地过程中，有一个常见的误区：一旦推理速度不达标，大家的第一反应往往是拿着模型开到，比如：做剪枝、搞蒸馏、甚至牺牲精度换小模型。实际上生产环境中的 Python 推理链路隐藏着巨大的“工程红利”。很多时候你的模型本身并不慢，慢的是低效的数据搬运、混乱的线程争用以及不合理的 Runtime 默认配置。以下是 8 个经过实战验证的低延迟优化策略，专治各种“莫名其妙的慢”。 6、CPU 推理？直接上量化如果只能用 CPU，INT8 量化或者动态量化是提速神器。配合 CPU 的向量指令集能极大减少矩阵乘法的开销。 providers=providers) x = np.random.rand(1, 3, 224, 224).astype(np.float32) print(bench(sess, x)) 总结做低延迟推理没有什么黑科技
38910编辑于 2025-12-30
来自专栏贾志刚-OpenCV学堂
OpenCV4.8 + YOLO11 C++ 部署推理
推理演示截图：代码已经全部测试过了，可以直接调用： #include<opencv2/opencv.hpp> #include<iostream> #include<fstream> std::string frame.copyTo(image(roi)); float x_factor = image.cols /640.0f; float y_factor = image.rows /640.0f; // 推理
17510编辑于 2026-04-02
来自专栏DeepHub IMBA
TensorRT 和 ONNX Runtime 推理优化实战：10 个降低延迟的工程技巧
只要精度守得住，延迟的改善非常直接。 TensorRT 开 FP16 就是一个 flag 的设置：config.set_flag(trt.BuilderFlag.FP16)。 micro-batch 在 GPU 上效果明显单条请求跑推理简单，但硬件利用率往往上不去。打包成 4-8 个请求一起跑，能在保持低延迟的同时提升吞吐。 CUDA Graph 能把整个推理过程录制下来，replay 时几乎没有 CPU 开销。这里可以理解成在 GPU driver 层面把推理编译成一个可重放的宏。后面再加上 CUDA Graph、micro-batch 和固定 shape，能把延迟压到很低，基本上拿来就可以用了几个容易踩的坑延迟指标一定要看 p50/p90/p95，别只盯平均值。
55110编辑于 2025-11-15
来自专栏AI SPPECH
144_推理时延优化：Profiling与瓶颈分析 - 使用PyTorch Profiler诊断推理延迟，优化矩阵运算的独特瓶颈
随着模型规模的不断扩大（从数亿参数到数千亿甚至万亿参数），即使在最先进的硬件上，推理延迟也常常成为用户体验和系统吞吐量的主要瓶颈。 1.1 推理时延优化的重要性大语言模型的推理延迟直接影响着：用户体验：实时应用场景（如聊天机器人、客服系统）要求响应时间通常在几百毫秒以内系统吞吐量：延迟优化可以显著提升单位时间内处理的请求数量成本效益比：相同硬件条件下，更低的延迟意味着更高的资源利用率扩展能力：优化的推理性能使得模型能够在更多样化的硬件平台上部署在当前的大模型生态中，即使是微小的延迟优化（例如降低10%的推理时间）也能带来显著的商业价值 1.1.1 延迟（Latency）延迟是指从输入请求到获得输出结果的总时间。对于大语言模型，我们通常关注：端到端延迟：完整推理过程的总时间，包括数据预处理、模型计算和后处理推理延迟：仅模型计算部分的时间 Token生成延迟：生成单个Token所需的时间（在自回归生成中尤为重要
43410编辑于 2025-11-16
来自专栏AI SPPECH
11. 推理工程师职责：系统架构设计
3.1.3 性能评估架构设计完成后，推理工程师需要进行性能评估，验证架构设计的合理性和可行性。性能建模：建立系统的性能模型，预测系统的吞吐量、延迟等性能指标。边缘架构：将推理节点部署在边缘设备上，适合低延迟场景。 4.2 不同架构方案对比以下是不同推理系统架构方案的对比：架构方案优点缺点适用场景集中式架构部署简单、维护方便、延迟低扩展性差、容错能力弱、资源利用率低小规模部署、低延迟场景分布式架构推理工程师掌握系统架构设计的技能和方法，具有以下实际工程意义：提高系统性能：合理的架构设计能够提高系统的吞吐量、降低延迟、提高并发量。到2029年：边缘计算与云协同的推理系统架构将成为主流，实现低延迟和大规模处理的平衡。到2030年：绿色计算将成为推理系统架构设计的核心要求，资源利用率提高50%以上，能耗降低30%以上。
14910编辑于 2026-01-23
来自专栏小七的各种胡思乱想
解密Prompt系列11. 小模型也能思维链推理
考虑同一个问题其实有很多种解法，以及不同的解法间往往存在逻辑共性，与其让模型拟合单一的推理结果，不如让模型从多个推理路径中去抽象重要信息。微调模型微调样本微调方式 1 FlanT5 250M~11B Few-shot-COT+Zero-shot-COT+Few-shot-Answer Only 蒸馏：Top5 Token的KL距离 2 T5 60M~11B Zero-shot-COT 这种情况下需要定制场景所需的推理逻辑，这时zero-shot肯定就不行了，需要few-shot来给出不同场景所需的不同推理链路。这一点其实可能说明COT推理本身除了是一种生成风格，也是一种模型能力，所以不同的推理数据集之间存在可迁移性，我们在单任务推理中混入数学COT也发现有效果提升。
3.1K71编辑于 2023-07-14
来自专栏WindCoder
并发学习笔记11-双重检查锁定与延迟初始化
对此，我们可以对getInstance（）方法做同步处理来实现线程安全的延迟初始化，其优化如下： public class Singleton { private static Singleton return instance; // 10 } // 11 基于该特性，可以实现另一种线程安全的延迟初始化方案，该方案被称之为Initialization On Demand Holder idiom: public class Singleton {
1.1K20发布于 2020-01-22
来自专栏C博文
边缘计算+AI算力网络：如何构建低延迟、高并发的实时推理系统？
这种结合为构建低延迟、高并发的实时推理系统提供了新的可能。，进一步降低推理延迟。构建低延迟、高并发的实时推理系统系统架构设计构建低延迟、高并发的实时推理系统，首先需要设计一个合理的系统架构。常用的性能评估指标包括：延迟指标延迟是实时推理系统中最关键的性能指标之一，包括以下几种：端到端延迟：从数据输入到结果输出的总时间。端到端延迟是用户最关心的指标，反映了系统对用户请求的响应速度。例如，可以将边缘计算节点部署在5G基站附近，提供低延迟、高带宽的AI推理服务。
1.3K10编辑于 2025-07-19
来自专栏时空探索之旅
AI论文速读 | YingLong：基于联合预测框架与延迟链式推理的时序预测基础模型
关键词：时间序列预测、基础模型、联合预测框架、延迟链式推理（DCoT）摘要本文提出了一种用于时间序列预测的联合预测框架，该框架与传统的直接或递归方法形成对比。这个框架为本文设计的基础模型 “YingLong” 实现了最先进的性能，并揭示了一种新的尺度效应：由于非因果方法中延迟的思维链推理，更长的输出显著提高了模型精度。延迟链式推理（Delayed Chain-of-Thought, DCoT）延迟链式推理：论文发现了一个新的现象，即通过延长输出序列（即增加延迟链式推理的长度），可以显著提高模型的预测精度。这种现象被称为延迟链式推理（DCoT）。在DCoT中，未来的token（即链式推理token）可以影响过去的token，从而提供更多的上下文信息，增强模型的推理能力。延迟链式推理（DCoT）的影响实验实验目的：验证延迟链式推理（DCoT）对模型性能的影响。实验方法：通过改变DCoT的长度，观察模型在GIFT-Eval基准测试中的性能变化。
50910编辑于 2025-07-08
来自专栏海向
RabbitMQ 延迟队列，消息延迟推送
目录应用场景消息延迟推送的实现测试结果 ---- 应用场景目前常见的应用软件都有消息的延迟推送的影子，应用也极为广泛，例如：淘宝七天自动确认收货。这种解决方案相较于消息的延迟推送性能较低，因为我们知道 redis 都是存储于内存中，我们遇到恶意下单或者刷单的将会给内存带来巨大压力。消息延迟推送的实现在 RabbitMQ 3.6.x 之前我们一般采用死信队列+TTL过期时间来实现延迟队列，我们这里不做过多介绍，可以参考之前文章来了解：TTL、死信队列在 RabbitMQ 3.6 .x 开始，RabbitMQ 官方提供了延迟队列的插件，可以下载放置到 RabbitMQ 根目录下的 plugins 下。延迟队列插件下载 ? 首先我们创建交换机和消息队列，application.properties 中配置与上一篇文章相同。
2.7K10发布于 2019-09-23
来自专栏玩转 Spring Cloud
Rabbitmq 通过延迟插件实现延迟队列
Rabbitmq 通过延迟插件实现延迟队列文章目录 DLX+TTL 存在时序问题安装延迟插件下载地址安装 Java 代码实现 DLX+TTL 存在时序问题由于队列先入先出的特性通过死信队列(DLX)和给每条消息设置过期时间(TTL)来实现延迟队列, 会存在时序问题. 可以通过给 Rabbitmq 安装延迟插件来实现延迟队列功能安装延迟插件下载地址 rabbitmq-delayed-message-exchange 插件可到这里下载: RabbitMQ 延迟插件 RabbitAdmin.class); TopicExchange exchange = new TopicExchange("exchange.delay"); // 交换器设置延迟属性 class MsgListener { @RabbitHandler public void msgHandler(String msg) { log.info("接收到的延迟消息
1.7K20编辑于 2022-05-05
来自专栏ATYUN订阅号
NVIDIA AI推理性能里程碑：高吞吐量，高效率，低延迟
TensorRT推理服务器也是新产品，这是一种容器化推理微服务，可最大限度地提高NVIDIA GPU的利用率，并与Docker和Kubernetes无缝集成到DevOps部署中。此处显示的数据适用于高容量吞吐量，通常以批量大小128运行，其中低延迟不一定是问题，因为高容量吞吐量是最重要的。延迟：对于越来越多的AI驱动的实时服务，低延迟是一个关键因素，NVIDIA V100和T4都可以提供大约1ms的延迟，使实时服务可以轻松扩展。这种类型的服务器部署可以很好地处理高批量和实时推理，视频转码甚至分布式训练工作负载。随着AI服务的数量和复杂程度不断提高，驱动他们的明显趋势是加速推理。因此，无论是扩展还是横向扩展，加速使用任何框架构建的任何类型的网络，NVIDIA V100和T4都已准备好迎接挑战，提供制作这些服务所需的高吞吐量，低延迟和高效率，使这些服务和产品成为现实。
1.8K10发布于 2018-12-13
来自专栏原创干货
1.6万字+28张图盘点11种延迟任务的实现方式
所以本篇文章就来从实现到原理来盘点延迟任务的11种实现方式，这些方式并没有绝对的好坏之分，只是适用场景的不大相同。 RocketMQ延迟消息的延迟时间默认有18个等级。当发送消息的时候只需要指定延迟等级即可。如果这18个等级的延迟时间不符和你的要求，可以修改RocketMQ服务端的配置文件。 task=sanyou 测试结果：实现原理生产者发送延迟消息之后，RocketMQ服务端在接收到消息之后，会去根据延迟级别是否大于0来判断是否是延迟消息如果不大于0，说明不是延迟消息，那就会将消息保存到指定的所以基于监听Redis过期key实现延迟任务的原理如下：将延迟任务作为key，过期时间设置为延迟时间监听__keyevent@<db>__:expired这个channel，那么一旦延迟任务到了过期时间当延迟队列创建之后，会开启一个延迟任务的消费线程，这个线程会一直从RBlockingQueue中通过take方法阻塞获取延迟任务。
52010编辑于 2024-07-02
来自专栏杨建荣的学习笔记
Oracle Data Guard延迟的原因(r11笔记第69天)
Oracle Data Guard中很可能出现延迟的情况，而数据一旦出现延迟就意味着丢数据。退一步来说丢数据总比数据乱了好，但是回过头来，能不丢数据但是丢了，这就有些说不过去了。，比如一个ADG的环境，案例应该是实时同步，但是却有数据同步出现延迟的情况。大体来说，10g和11g中的数据同步延迟场景还不大一样。在11g中，倒不存在这样的限制了，因为是Active Data Guard的方式，所以可以在read only的基础上接收应用增量数据变化。但是延迟的问题依旧可能存在。日志如下： RFS[1]: Opened log for thread 1 sequence 476185 dbid 1210367666 branch 622336050 Wed Feb 08 11:
2.7K50发布于 2018-03-21
来自专栏AI
延迟优化
生成更少的令牌在使用LLM时，生成令牌几乎总是延迟最高的步骤：作为一般性的经验法则，减少50%的输出令牌可能会减少约50%的延迟。话虽如此，看看推理步骤本身，它们可能并不都需要 GPT-4 级别的推理能力来产生。这些明确定义、范围有限的特性使它们成为进行微调的良好潜在候选者。助理提示 - 推理该提示将传递给 GPT-3.5，并可以根据精选示例进行微调。有何变化？" 事实上，现在推理提示不依赖于检索到的上下文，我们可以并行地与检索提示同时进行。第三部分：优化结构化输出让我们再次看一下推理提示。仔细观察推理的JSON，您可能会注意到字段名称本身相当长。将助理提示拆分成两部分，再次切换到更小、经过微调的 GPT-3.5 进行推理，以更快地处理令牌。并行化检索检查和推理步骤。缩短推理字段名称并将注释移到提示中，以减少生成的令牌数。
85210编辑于 2024-05-13
来自专栏java大数据
事件延迟
事件延迟事件延迟（项目心得）马克- to-win：马克 java社区：防盗版实名手机尾号： 73203。
1.4K20发布于 2020-12-23

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

推理延迟：解决PyTorch模型Inference阶段的RuntimeError ⏳⚡

11g的延迟段功能

如何破解AI推理延迟难题：构建敏捷多云算力网络

「从0到1学习微服务SpringCloud 」11 补充篇 RabbitMq实现延迟消费和延迟重试

ONNX Runtime Python 推理性能优化：8 个低延迟工程实践

OpenCV4.8 + YOLO11 C++ 部署推理

TensorRT 和 ONNX Runtime 推理优化实战：10 个降低延迟的工程技巧

144_推理时延优化：Profiling与瓶颈分析 - 使用PyTorch Profiler诊断推理延迟，优化矩阵运算的独特瓶颈

11. 推理工程师职责：系统架构设计

解密Prompt系列11. 小模型也能思维链推理

并发学习笔记11-双重检查锁定与延迟初始化

边缘计算+AI算力网络：如何构建低延迟、高并发的实时推理系统？

AI论文速读 | YingLong：基于联合预测框架与延迟链式推理的时序预测基础模型

RabbitMQ 延迟队列，消息延迟推送

Rabbitmq 通过延迟插件实现延迟队列

NVIDIA AI推理性能里程碑：高吞吐量，高效率，低延迟

1.6万字+28张图盘点11种延迟任务的实现方式

Oracle Data Guard延迟的原因(r11笔记第69天)

延迟优化

事件延迟

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

推理延迟：解决PyTorch模型Inference阶段的RuntimeError ⏳⚡

11g的延迟段功能

如何破解AI推理延迟难题：构建敏捷多云算力网络

「 从0到1学习微服务SpringCloud 」11 补充篇 RabbitMq实现延迟消费和延迟重试

ONNX Runtime Python 推理性能优化：8 个低延迟工程实践

OpenCV4.8 + YOLO11 C++ 部署推理

TensorRT 和 ONNX Runtime 推理优化实战：10 个降低延迟的工程技巧

144_推理时延优化：Profiling与瓶颈分析 - 使用PyTorch Profiler诊断推理延迟，优化矩阵运算的独特瓶颈

11. 推理工程师职责：系统架构设计

​解密Prompt系列11. 小模型也能思维链推理

并发学习笔记11-双重检查锁定与延迟初始化

边缘计算+AI算力网络：如何构建低延迟、高并发的实时推理系统？

AI论文速读 | YingLong：基于联合预测框架与延迟链式推理的时序预测基础模型

RabbitMQ 延迟队列，消息延迟推送

Rabbitmq 通过延迟插件实现延迟队列

NVIDIA AI推理性能里程碑：高吞吐量，高效率，低延迟

1.6万字+28张图盘点11种延迟任务的实现方式

Oracle Data Guard延迟的原因(r11笔记第69天)

延迟优化

事件延迟

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

「从0到1学习微服务SpringCloud 」11 补充篇 RabbitMq实现延迟消费和延迟重试

解密Prompt系列11. 小模型也能思维链推理