搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏DeepHub IMBA
System 2 Attention：可以提高不同LLM问题的推理能力
推理正在成为大型语言模型(llm)关注的下一个主要领域。尽管llm拥有先进的能力，但大多数llm经常被简单的错误绊倒，显示出他们在推理方面的局限性。 S2A Meta AI 的这种方法被称为系统2注意力(S2A)，包括提示LLM创建一个上下文，剥离掉可能扭曲推理的不相关信息。 Meta AI的具体方法利用了已经熟练掌握推理和生成任务的指令调整LLM。他们使用这些功能通过提示来指示LLM执行S2A任务。结果评估S2A在三种不同场景下的有效性，这些场景突出了LLM的推理能力。该设置旨在评估S2A如何有效地过滤掉无关信息，并专注于问题的基本方面，以提供准确的解决方案。总结 S2A是LLM推理方法发展的一个重要里程碑。该方法与人类推理非常相似，避免了干扰。
67810编辑于 2023-12-13
来自专栏AIGC大模型应用
让 LLM 既能“看”又能“推理”！
DeepSeek-R1 会推理，GPT-4o 会看。能否让1 LLM既能看又能推理？DeepSeek-R1取得很大成功，但它有个问题——无法处理图像输入。我们需要视觉推理模型（VRM）——既能看又能推理。本文探讨如何实现它。2 现有模型的问题当前VLM 不能很好推理，而 LRM 只能处理文本，无法理解视觉信息。若想要一个既能看懂图像，又能深度推理的模型？物理问题示例我是一个学生，向 LLM 提问物理问题，并附带一张图像。 RL在 LLM 领域表现出色，提升了推理能力（如 RLHF 训练的 GPT-4）。若用 RL 训练 VLM，是否能打造更强的视觉推理模型？以图像分类任务为例。如题目正确答案 2 bpm，但 GPT-4o 回答错误：GPT-4o错误回答：如能让 LLM 在视觉推理方面更强，或许能正确解答。期望的 VRM 结果：
42821编辑于 2025-03-27
LLM 系列（六）：模型推理篇
本文将深入剖析 LLM 推理的全貌，从其根本的自回归生成机制出发，逐层揭示其核心挑战、关键性能指标、优化技术、分布式策略以及当前主流的推理框架。本文旨在为读者构建一个关于 LLM 推理的完整知识图谱，理解其“表”之性能与“里”之原理。推理的本质：一个两阶段的自回归过程要理解推理优化，首先必须掌握 LLM 生成文本的底层机制。这个庞大的缓存必须在每个内存密集型的解码步骤中被反复读写，使其成为现代 LLM 推理优化的核心目标。这是 vLLM、TensorRT-LLM 等现代推理服务器的标配功能。 MoE 模型在每次推理时只激活一小部分参数，从根本上降低了单次推理的计算和内存成本。 2.
3.4K24编辑于 2025-08-04
来自专栏架构驿站
LLM 推理引擎之争：Ollama or vLLM ?
随着自然语言处理（NLP）和大规模语言模型（LLM）技术的迅猛发展，众多创新模型不断涌现，为开发者提供了多样化的选择。 2、分布式推理与高吞吐量：分布式计算框架：vLLM 基于 PyTorch 和 Ray 构建，支持多 GPU 分布式推理，通过并行计算提升吞吐量。 3、资源利用率优化： FP16 推理：vLLM 默认使用半精度浮点（FP16）格式推理，结合 GPU 的 Tensor Core 加速计算，推理速度比 FP32 格式快 2 倍以上。 2、对于对推理性能和系统可扩展性有较高要求的场景：建议选择 vLLM。尤其适用于需要处理高并发请求和大规模推理任务的应用，vLLM 在性能优化方面表现出色。例如，对于初学者或希望快速上手的用户，可以优先选择 Ollama 作为入门，待熟悉 LLM 推理流程和原理后，再根据更复杂应用的需求，逐步转向 vLLM 以获得更高的性能和更强的扩展性。
1.8K11编辑于 2025-04-24
来自专栏JavaEdge
让 LLM 既能“看”又能“推理”！
怎么想、怎么做，全在乎自己「不断实践中寻找适合自己的大道」 DeepSeek-R1 会推理，GPT-4o 会看。能否让 1 LLM既能看又能推理？我们需要视觉推理模型（VRM）——既能看又能推理。本文探讨如何实现它。 2 现有模型的问题当前VLM 不能很好推理，而 LRM 只能处理文本，无法理解视觉信息。若想要一个既能看懂图像，又能深度推理的模型？物理问题示例我是一个学生，向 LLM 提问物理问题，并附带一张图像。 RL在 LLM 领域表现出色，提升了推理能力（如 RLHF 训练的 GPT-4）。若用 RL 训练 VLM，是否能打造更强的视觉推理模型？以图像分类任务为例。如题目正确答案 2 bpm，但 GPT-4o 回答错误： GPT-4o错误回答：如能让 LLM 在视觉推理方面更强，或许能正确解答。
31010编辑于 2025-06-01
LLM推理中 KVCache 提示推理效率的几点应用
LLM推理中KVCache提示推理效率的几点应用这是基于2025AICon大会的马腾的演讲整理而成通过kvCache的优化提升效率，如模型算法优化减少KVCache产生量，KVCache压缩，KVCache 复用，KVCache共享，前言在大模型应用的浪潮中，有一个问题始终困扰着从业者：如何在保证服务质量的同时，降低推理成本、提高吞吐效率？在分布式推理场景下，KVCache需要在不同的GPU甚至不同的服务器之间传输，带宽成为重要的瓶颈。管理复杂性也不可小觑。分离指的是将KVCache从模型推理过程中分离出来，形成独立的服务。模型推理节点不再负责KVCache的存储和管理，而是专注于计算任务。这种分离带来了几个好处：推理节点可以更专注于计算，提高资源利用率；KVCache服务可以独立扩展，适应不同的负载特征；不同推理节点之间可以共享KVCache，减少重复计算。
34610编辑于 2026-01-14
来自专栏DeepHub IMBA
解决推理能力瓶颈，用因果推理提升LLM智能决策
但问题就出在这里：今天的智能体AI系统被LLM的推理能力限制住了——这个问题在苹果的两篇论文1、2里讨论得很深入。核心问题来自智能体AI系统的非确定性特征。因果AI能够影响智能体AI生命周期的多个环节，特别是推理、可观察性和可解释性这几个方面。 LLM推理能力的现实困境苹果最近的研究（论文1）深入分析了LLM的推理局限性。另一篇论文2进一步揭示，前沿的大型推理模型（LRM）在问题复杂度超过某个阈值时会出现准确率完全崩溃。这些发现暴露了依赖LLM解决问题的风险。LLM看起来无法进行真正的逻辑推理，只是在模仿训练数据中观察到的推理步骤。要让AI真正具备推理和问题解决能力，它必须在算法层面理解因果关系。比如Agent2Agent（A2A）协议定义了智能体卡概念，这是一个JSON文档，相当于智能体的数字"名片"。
43010编辑于 2025-11-15
来自专栏自然语言处理(NLP)论文速递
LLM推理速度飙升23倍！Continuous Batching：解锁LLM潜力！
| paperweekly 本文介绍一篇 LLM 推理加速技术相关的文章，值得读一读。 LLMs 在现实应用中的计算成本主要由服务成本所主导，但是传统的批处理策略存在低效性。 Section2 - The basics of LLM inference Q1. 在 LLM 推断中，对于每一个请求，我们是如何开始的？可以描述一下“前缀”或“提示”是什么吗？ Q2. LLM 在产生完整的响应之前会产生一个什么样的 token 序列？什么情况下会停止生成？在这个玩具示例中，图中的元素代表了 LLM 推断的一些关键组成部分：黄色方框中的 T1, T2, ..., T8：这些代表了一个假设模型，它支持最大长度为 8 个 token 的序列。 Q2. 什么是批处理，以及它如何有助于提高LLM推断的效率？与每次处理一个输入序列加载新模型参数相比，批处理有什么优势？批处理是一种将多个数据样本一起传递给模型进行处理的技术。
3.2K31编辑于 2023-10-24
来自专栏JadePeng的技术博客
LLM 推理和应用开源框架梳理
之前对LLM 推理和应用了解不多，因此抽时间梳理了一下，我们从模型量化，模型推理，以及开发平台等三个层面来梳理分析。 GGML是一个C写的库，可以将LLM转为为GGML格式，通过量化等技术让LLM方便进行加载和推理采用量化技术，将原有大模型预训练结果量化（即将原有大模型FP16精度压缩成INT8、INT6精度二进制文件编码如果CPU推理，llama.cpp 结合模型int4量化，最佳的选择 GPU推理，微软的 DeepSpeed-FastGen 是一个好的选择手机终端推理，MLC LLM可以作为候选大模型应用开发平台可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。 LLM支持：与 OpenAI 的 GPT 系列模型集成,或者与开源的 Llama2 系列模型集成。事实上，Dify支持主流的商业模型和开源模型(本地部署或基于 MaaS)。 2.
2.9K10编辑于 2024-03-13
来自专栏计算机工具
LLM前言：推理加速、模型微调对齐、开源LLM、Agent、多模态
LLM前言：推理加速、模型微调/对齐、开源LLM、Agent、多模态推理加速推理加速是AI技术中的关键环节，能让AI模型在实际应用中更智能、更高效。推理加速技术主要通过算法优化和硬件加速来实现。算法优化：通过剪枝、量化、压缩等技术减小模型的大小和计算复杂度，从而提高推理速度和效率。硬件加速：利用GPU、FPGA、ASIC等专门的硬件加速器来加速AI推理的过程。这些硬件加速器针对AI推理的特点进行设计和优化，从而提高推理速度和效率。推理加速技术在智能语音、图像识别、自然语言处理等领域有广泛应用，能提升这些技术的识别速度和精度，从而提升用户体验。开源LLM 开源LLM（大型语言模型）是指公开源代码的大型语言模型，允许开发者自由使用、修改和分发。开源LLM的出现降低了AI技术的门槛，促进了AI技术的创新和发展。
40210编辑于 2024-12-14
基于MindSpore NLP的LLM推理 - - 实操
一、LLM泛化能力model Decoding核心：Tranformer模型示意图greedy decodingMindNLP/LLaMa3/run_llama3.py选择线性同余生成器（LCG）解码策略法 mindspore.communication import initfrom mindnlp.transformers import AutoTokenizer, AutoModelForCausalLMmodel_id = "LLM-Research import AutoTokenizer, AutoModelForCausalLMimport numpy as np# LCG 参数设置a = 1664525c = 1013904223m = 2* seed = (a * seed + c) % m yield seed# 创建LCG生成器lcg_gen = lcg_generator(a, c, m, seed)model_id = "LLM-Research
32710编辑于 2025-01-18
来自专栏AI SPPECH
LLM推理优化技术：从理论到实践
然而，LLM的推理过程面临着巨大的挑战：推理延迟高：LLM的推理过程需要大量的计算，特别是自回归生成过程，每生成一个token都需要进行一次前向传播，导致推理延迟很高。在过去的一年中，GitHub上涌现出了许多优秀的LLM推理优化技术和工具，如vLLM、FlashAttention、GPTQ等，这些技术和工具为LLM的广泛应用奠定了基础。 2. 3.4 算法优化算法优化是推理优化的核心，通过改进算法设计，提高推理效率。 3.4.1 注意力机制优化注意力机制是LLM的核心组件，其计算复杂度为O(n^2)，是推理瓶颈之一。最新的注意力机制优化技术，如FlashAttention、Linear Attention、Memory-Efficient Attention等，能够将注意力计算的复杂度从O(n^2)降低到O(n)， 2-3x 50% 中高 flash-attention 连续批处理 10-20x 0% 高低 vLLM 模型并行线性提升线性降低中高 DeepSpeed 量化感知训练 3-5x 75% 高
76010编辑于 2026-01-01
来自专栏DeepHub IMBA
使用TensorRT-LLM进行高性能推理
LLM的火爆之后，英伟达(NVIDIA)也发布了其相关的推理加速引擎TensorRT-LLM。TensorRT是nvidia家的一款高性能深度学习推理SDK。而TensorRT-LLM是在TensorRT基础上针对大模型进一步优化的加速推理库，它号称可以增加4倍的推理速度。所以本文将对其做一个简单的使用介绍。广泛的模型支持丰富多样的大型语言模型(llm)，每个模型都是为特定任务量身定制的。推理工具的效用因其与各种模型无缝集成的能力而大大增强。 TensorRT-LLM在这一领域表现出色，并且提供了广泛的兼容性，从Meta的Llama 1和2到ChatGLM、Falcon、MPT、Baichuan、Starcoder等一系列llm。通过其直观的Python API, TensorRT-LLM使LLM优化和推理平民化，使这些先进技术能够为更广泛的受众所使用。
2.5K20编辑于 2023-10-23
来自专栏存储公众号：王知鱼
LLM推理提速：写在UCM将开源之际
本文将深入剖析这些架构的设计哲学与实践价值，助您洞悉LLM推理优化的前沿趋势。阅读收获掌握LLM推理中KV Cache内存瓶颈的本质与经济驱动力。在这个范式下，AI工厂将原始数据转化为能够产生商业价值的智能服务，而高吞吐、低延迟的推理能力，正是这条“生产线”上至关重要的环节 2。以Llama 2 7B模型为例，一个包含4096个token序列的单次请求，其KV Cache就能消耗约2 GB的HBM 4。这些挑战背后，揭示了LLM推理领域一个根本性范式转变。早期，LLM优化主要集中在提升原始计算能力（FLOPs）。参考阅读《月之暗面：存储换算，倍增LLM推理效率》主要内容：该文章深入探讨了KVCache（Key-Value Cache）技术在大型语言模型（LLM）推理中的应用与优化。
1.7K10编辑于 2025-10-09
来自专栏NLP/KG
LLM推理：如何通过PRMs和MCTS提升大型语言模型的推理能力
MCTS 在 LLM 场景中是如何实现的？ PRMs 和 MCTS 是完全独立的技术，还是相辅相成的？ PRMs：更加灵活，可以是选项 1：在 llm 生成每一步解题步骤 step 后进行评估，发现错误时 llm 重新生成。（论文把这个 llm 成为 generator ）的生成的 output 打分，那这个 llm 怎么来呢？这可能也是 DeepSeek-R1 和 Kimi1.5 等新一代推理模型没有采用 PRM 的原因。 2. 这里用一个简明的例子，理解透 MCTS 在 llm 场景下的核心原理和工作流程。
87210编辑于 2025-04-26
来自专栏深度学习与python
使用 BigDL-LLM 加速 Intel ® 数据中心 GPU 上的 LLM 推理
这篇文章将为对大型语言模型推理性能感兴趣的读者提供有益的参考和启示。在生成式人工智能领域，针对大型语言模型（LLM）的推理加速，已经开发出多种性能改进技术。我们已经在 BigDL-LLM 中实现了低比特和 Self-Speculative Decoding 优化，以提高 Intel®数据中心 GPU 上的 LLM 推理速度。实际测试中，使用 Hugging Face 上一些流行的模型在 Intel® 数据中心 GPU Max 1100C 上进行了 INT4 推理，以下图表显示了 Next Token 延迟：图 2. 下面的图表比较了在 Intel 数据中心 GPU Max 1100C 上，使用 BigDL-LLM 进行 FP16 推理时的推理延迟。建议查看我们为 Self-Speculative Decoding 开发的 LLM 推理示例，这些示例适用于 Llama2、Mistral、ChatGLM3、Baichuan2、Qwen 等模型。
68310编辑于 2024-03-26
来自专栏量子位
用BigDL-LLM 即刻加速百亿级参数LLM推理 | 最“in”大模型
下面就展示了使用 BigDL-LLM 加速过的 330 亿参数的大语言模型 Vicuna-33b-v1.3[2]在一台搭载英特尔® 至强® 铂金 8468 处理器的服务器上运行的实时效果。 BigDL-LLM 会在加载模型的过程中对模型进行 4-bit 低精度量化，并在后续推理过程中利用各种软硬件加速技术优化其执行。只需使用 BigDL-LLM 中的 AutoModelForSpeechSeq2Seq 并设置参数 load_in_4bit=True，就能够以 INT4 精度加载并加速这一模型，从而显著缩短模型推理用时 =llm, prompt=prompt, verbose=True, memory=ConversationBufferWindowMemory(k=2 一行代码就行 4 一个简单模型就让ChatGLM性能大幅提升 5 推理1760亿参数的BLOOMZ，性能时延仅3.7秒
75020编辑于 2023-09-08
来自专栏自然语言处理
推理大模型的后训练增强技术--LLM 推理模型的现状
一般来说，改进推理有两种主要策略：（1）增加_训练_计算量，或（2）增加_推理_计算量，也称为_推理时扩展_或_测试时扩展_。上图中的方法 2-4 通常会让 LLM 生成更长的回答，因为这些方法在输出中加入了中间步骤和解释。 2. (Can a 1B LLM Surpass a405B LLM?) 2 月 10 日，10 亿参数的 LLM 能否超越 4050 亿参数的 LLM？用于LLM 推理和规划的推理时计算 (Inference-Time Computations for LLM Reasoning and Planning) 2 月 18 日，用于 LLM 推理和规划的推理时计算
1.1K10编辑于 2025-03-13
论文解读-你的LLM能够稳定推理吗？
论文认为这一差距主要源于当前的评估协议和指标未能全面反映LLM的能力，特别是在复杂推理任务中，准确性和一致性至关重要。二、研究背景自大型语言模型（LLMs）问世以来，复杂的推理能力，尤其是数学问题解决方面的能力，被视为LLM能力的巅峰。三、相关研究数学推理基准测试针对大型语言模型（LLMs）。为了评估大型语言模型在A数学推理方面的能力，已经开发了专门的基准测试，这些测试关注LLM在数学能力的不同方面。 Omni-Math专注于奥林匹克级别的数学推理，包含4428道竞赛级别的题目，分为超过33个子领域和10个难度级别，从入门级到专业国际竞赛。LLM推理的稳定性。 5.2 设置5.2.1 LLMs论文评估了多种因其强大的数学推理能力而被认可的大型语言模型（LLM），包括InternLM2-Math-Plus-20B、DeepSeek-Math-7b-RL、DeepSeek-V2.5
25310编辑于 2026-01-16
边缘端LLMVLM推理框架：TensorRT Edge-LLM
加速汽车与机器人领域的LLM与VLM推理：TensorRT Edge-LLM大型语言模型（LLM）与多模态推理系统正迅速扩展至数据中心之外。本文正式介绍某机构 TensorRT Edge-LLM——一个全新的、开源的C++ LLM/VLM推理框架，旨在满足高性能边缘推理的新兴需求。 TensorRT Edge-LLM 在使用Qwen3模型与投机解码时展现出卓越性能实时边缘场景下的LLM与VLM推理边缘LLM与VLM推理负载具有以下特征：少数用户或单用户请求低批量（通常来自多个摄像头 TensorRT Edge-LLM为包括驾驶员及座舱活动监控在内的广泛用例加速LLM与VLM推理。某机构通过贡献新的嵌入式专用推理方法，参与TensorRT Edge-LLM的开发。 TensorRT引擎在目标硬件上运行推理图2.
34610编辑于 2026-02-13

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

System 2 Attention：可以提高不同LLM问题的推理能力

让 LLM 既能“看”又能“推理”！

LLM 系列（六）：模型推理篇

LLM 推理引擎之争：Ollama or vLLM ?

让 LLM 既能“看”又能“推理”！

LLM推理中 KVCache 提示推理效率的几点应用

解决推理能力瓶颈，用因果推理提升LLM智能决策

LLM推理速度飙升23倍！Continuous Batching：解锁LLM潜力！

LLM 推理和应用开源框架梳理

LLM前言：推理加速、模型微调对齐、开源LLM、Agent、多模态

基于MindSpore NLP的LLM推理 - - 实操

LLM推理优化技术：从理论到实践

使用TensorRT-LLM进行高性能推理

LLM推理提速：写在UCM将开源之际

LLM推理：如何通过PRMs和MCTS提升大型语言模型的推理能力

使用 BigDL-LLM 加速 Intel ® 数据中心 GPU 上的 LLM 推理

用BigDL-LLM 即刻加速百亿级参数LLM推理 | 最“in”大模型

推理大模型的后训练增强技术--LLM 推理模型的现状

论文解读-你的LLM能够稳定推理吗？

边缘端LLMVLM推理框架：TensorRT Edge-LLM

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

System 2 Attention：可以提高不同LLM问题的推理能力

让 LLM 既能“看”又能“推理”！

LLM 系列（六）：模型推理篇

LLM 推理引擎之争：Ollama or vLLM ?

让 LLM 既能“看”又能“推理”！

LLM推理中 KVCache 提示推理效率的几点应用

解决推理能力瓶颈，用因果推理提升LLM智能决策

LLM推理速度飙升23倍！Continuous Batching：解锁LLM潜力！

LLM 推理和应用 开源框架梳理

LLM前言：推理加速、模型微调对齐、开源LLM、Agent、多模态

基于MindSpore NLP的LLM推理 - - 实操

LLM推理优化技术：从理论到实践

使用TensorRT-LLM进行高性能推理

LLM推理提速：写在UCM将开源之际

LLM推理：如何通过PRMs和MCTS提升大型语言模型的推理能力

使用 BigDL-LLM 加速 Intel ® 数据中心 GPU 上的 LLM 推理

用BigDL-LLM 即刻加速百亿级参数LLM推理 | 最“in”大模型

推理大模型的后训练增强技术--LLM 推理模型的现状

论文解读-你的LLM能够稳定推理吗？

边缘端LLMVLM推理框架：TensorRT Edge-LLM

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

LLM 推理和应用开源框架梳理