DeepSeek-R1 会推理,GPT-4o 会看。能否让1 LLM既能看又能推理?DeepSeek-R1取得很大成功,但它有个问题——无法处理图像输入。 若想要一个既能看懂图像,又能深度推理的模型?物理问题示例我是一个学生,向 LLM 提问物理问题,并附带一张图像。 LLaVA 在这里使用的是 Vicuna 作为 LLM。不过,仅仅有这个结构是不够的,模型还需要训练,才能真正理解图像内容。5 VLM咋训练? RL在 LLM 领域表现出色,提升了推理能力(如 RLHF 训练的 GPT-4)。若用 RL 训练 VLM,是否能打造更强的视觉推理模型?以图像分类任务为例。 如题目正确答案 2 bpm,但 GPT-4o 回答错误:GPT-4o错误回答:如能让 LLM 在视觉推理方面更强,或许能正确解答。期望的 VRM 结果:
推理是将训练好的模型应用于实际,根据 用户输入(Prompt)生成响应的过程 。无论是驱动一个实时聊天机器人,还是进行离线文档分析,高效、可靠的推理是所有 LLM 应用的基石。 本文将深入剖析 LLM 推理的全貌,从其根本的自回归生成机制出发,逐层揭示其 核心挑战、关键性能指标、优化技术、分布式策略以及当前主流的推理框架 。 本文旨在为读者构建一个关于 LLM 推理的完整知识图谱,理解其“表”之性能与“里”之原理。 推理的本质:一个两阶段的自回归过程 要理解推理优化,首先必须掌握 LLM 生成文本的底层机制。 • 5、重复此过程,直到满足停止条件(如生成了终止符 `` 或达到最大长度)。 这种循序渐进的特性是 LLM 能够生成连贯、上下文相关文本的基础。 这是 vLLM、TensorRT-LLM 等现代推理服务器的标配功能。
随着自然语言处理(NLP)和大规模语言模型(LLM)技术的迅猛发展,众多创新模型不断涌现,为开发者提供了多样化的选择。 单线程推理:Ollama 设计采用单线程推理架构,简化了系统结构,避免了多线程带来的复杂性和资源竞争。这使得 Ollama 更加适合低并发的场景,能够高效地完成推理任务。 性能提升:传统推理框架中,KV Cache 占用大量显存,尤其在长序列推理时问题更为严重。 3、资源利用率优化: FP16 推理:vLLM 默认使用半精度浮点(FP16)格式推理,结合 GPU 的 Tensor Core 加速计算,推理速度比 FP32 格式快 2 倍以上。 例如,对于初学者或希望快速上手的用户,可以优先选择 Ollama 作为入门,待熟悉 LLM 推理流程和原理后,再根据更复杂应用的需求,逐步转向 vLLM 以获得更高的性能和更强的扩展性。
怎么想、怎么做,全在乎自己「不断实践中寻找适合自己的大道」 DeepSeek-R1 会推理,GPT-4o 会看。能否让 1 LLM既能看又能推理? 若想要一个既能看懂图像,又能深度推理的模型? 物理问题示例 我是一个学生,向 LLM 提问物理问题,并附带一张图像。 LLaVA 在这里使用的是 Vicuna 作为 LLM。 LLaVA 结构示意图 不过,仅仅有这个结构是不够的,模型还需要训练,才能真正理解图像内容。 5 VLM咋训练? RL在 LLM 领域表现出色,提升了推理能力(如 RLHF 训练的 GPT-4)。若用 RL 训练 VLM,是否能打造更强的视觉推理模型? 以图像分类任务为例。 如题目正确答案 2 bpm,但 GPT-4o 回答错误: GPT-4o错误回答: 如能让 LLM 在视觉推理方面更强,或许能正确解答。
五个生成式 AI 推理平台,可使用开放式 LLM,如 Llama 3、Mistral 和 Gemma。有些还支持针对视觉的模型。 译自 5 Open LLM Inference Platforms for Your Next AI Application,作者 Janakiram MSV。 以下是五个生成式 AI 推理平台,可使用开放式 LLM,如 Llama 3、Mistral 和 Gemma。其中一些还支持针对视觉的基础模型。 1. 5. Nvidia NIM NVIDIA NIM API 提供对各种经过预训的语言模型和其他 AI 模型的访问,这些模型经过 NVIDIA 的软件堆栈的优化和加速。 上述列表是提供语言模型作为服务的推理平台的一个子集。在即将发布的文章中,我将介绍可以在 Kubernetes 上运行的自托管模型服务器和推理引擎。敬请期待。
LLM推理中KVCache提示推理效率的几点应用这是基于2025AICon大会的马腾的演讲整理而成通过kvCache的优化提升效率,如模型算法优化减少KVCache产生量,KVCache压缩,KVCache 复用,KVCache共享,前言在大模型应用的浪潮中,有一个问题始终困扰着从业者:如何在保证服务质量的同时,降低推理成本、提高吞吐效率? 在分布式推理场景下,KVCache需要在不同的GPU甚至不同的服务器之间传输,带宽成为重要的瓶颈。管理复杂性也不可小觑。 分离指的是将KVCache从模型推理过程中分离出来,形成独立的服务。模型推理节点不再负责KVCache的存储和管理,而是专注于计算任务。 这种分离带来了几个好处:推理节点可以更专注于计算,提高资源利用率;KVCache服务可以独立扩展,适应不同的负载特征;不同推理节点之间可以共享KVCache,减少重复计算。
因果AI能够影响智能体AI生命周期的多个环节,特别是推理、可观察性和可解释性这几个方面。 LLM推理能力的现实困境 苹果最近的研究(论文1)深入分析了LLM的推理局限性。 这些发现暴露了依赖LLM解决问题的风险。LLM看起来无法进行真正的逻辑推理,只是在模仿训练数据中观察到的推理步骤。 要让AI真正具备推理和问题解决能力,它必须在算法层面理解因果关系。 LLM推理——在LLM/LRM训练中提供WHAT、HOW和WHY成分 因果AI能够提供几个关键的推理组件:根本原因分析(检测和排序导致结果的因果驱动因素),假设场景和反事实分析(确定替代行动相对于当前状态的后果 举个例子,下面的图5展示了一个用于评估贷款申请信用风险的推断因果模型。红色箭头表示特征与信用度呈负相关,绿色箭头表示正面的因果驱动因素,箭头粗细代表因果关系的强度。 总结 当前LLM的推理局限性已成为制约智能体AI企业级应用的核心瓶颈。由于智能体系统在任务规划阶段高度依赖LLM能力,这种局限性直接影响了AI智能体的自主决策水平。
| paperweekly 本文介绍一篇 LLM 推理加速技术相关的文章,值得读一读。 LLMs 在现实应用中的计算成本主要由服务成本所主导,但是传统的批处理策略存在低效性。 这意味着通过合理地调度和利用内存,可以显著地提高 LLM 模型在实际应用中的性能表现。 Q5. 作者提到了一种最近提出的优化方法,即连续批处理,也称为动态批处理或迭代级别调度批处理。 Q5. 这里展示了一个玩具示例,用于说明 LLM 推断的简化过程。你能解释一下图中的元素代表了什么吗? Q5. 静态批处理何时会低效利用 GPU?请举一个例子来说明,特别是当输入和输出序列的长度不相等时,静态批处理可能会导致什么情况。 静态批处理在输入和输出序列长度不相等的情况下会低效利用 GPU。 [5]猛犸象大模型!数学大模型,现已超过GPT-4! [6]利用200条数据微调模型,怒超MiniGPT-4! [7]干货!Prompt链式方法总结,驾驭各种大模型!
之前对LLM 推理和应用了解不多,因此抽时间梳理了一下,我们从模型量化,模型推理,以及开发平台等三个层面来梳理分析。 GGML是一个C写的库,可以将LLM转为为GGML格式,通过量化等技术让LLM方便进行加载和推理 采用量化技术,将原有大模型预训练结果量化(即将原有大模型FP16精度压缩成INT8、INT6精度 二进制文件编码 ,有q4_0、q4_1、q5_0、q5_1和q8_0,在这里可以看到各种方法量化后的数据。 如果CPU推理,llama.cpp 结合模型int4量化,最佳的选择 GPU推理,微软的 DeepSpeed-FastGen 是一个好的选择 手机终端推理,MLC LLM可以作为候选 大模型应用开发平台 可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。
本文较为精简,更详细的内容可见三人行AI从零开始理解与编码 LLM 中的 KV 缓存机制 KV(Key-Value)缓存是实现大语言模型(LLM)在生产环境中高效推理的关键技术之一。 在 LLM 推理(inference)阶段,模型生成每一个 token 时都需要重新计算此前所有输入的 attention 结构,包括 Query、Key、Value 向量。 •如下图所示: 请注意,LLM 文本在生成输出过程中存在一些冗余,如下图所示: 在每一步生成过程中,LLM 都需要重新处理完整的上下文 “Time flies”,才能生成下一个 token(如 “fast 结语:权衡与实用性 虽然 KV 缓存增加了实现复杂度和内存占用,但它带来的推理效率提升是实实在在的,尤其在实际部署 LLM 时。 从零实现 KV 缓存:#4-从零实现-kv-缓存 [5]5. KV 缓存的性能对比:#5-kv-缓存的性能对比 [6]6. KV 缓存的优缺点:#6-kv-缓存的优缺点 [7]7.
LLM前言:推理加速、模型微调/对齐、开源LLM、Agent、多模态 推理加速 推理加速是AI技术中的关键环节,能让AI模型在实际应用中更智能、更高效。推理加速技术主要通过算法优化和硬件加速来实现。 算法优化:通过剪枝、量化、压缩等技术减小模型的大小和计算复杂度,从而提高推理速度和效率。 硬件加速:利用GPU、FPGA、ASIC等专门的硬件加速器来加速AI推理的过程。这些硬件加速器针对AI推理的特点进行设计和优化,从而提高推理速度和效率。 推理加速技术在智能语音、图像识别、自然语言处理等领域有广泛应用,能提升这些技术的识别速度和精度,从而提升用户体验。 开源LLM 开源LLM(大型语言模型)是指公开源代码的大型语言模型,允许开发者自由使用、修改和分发。开源LLM的出现降低了AI技术的门槛,促进了AI技术的创新和发展。
本文将深入剖析这些架构的设计哲学与实践价值,助您洞悉LLM推理优化的前沿趋势。 阅读收获 掌握LLM推理中KV Cache内存瓶颈的本质与经济驱动力。 这些挑战背后,揭示了LLM推理领域一个根本性范式转变。早期,LLM优化主要集中在提升原始计算能力(FLOPs)。 参考阅读 《月之暗面:存储换算,倍增LLM推理效率》 主要内容:该文章深入探讨了KVCache(Key-Value Cache)技术在大型语言模型(LLM)推理中的应用与优化。 文章首先介绍了Mooncake系统,该系统通过增加存储资源来减少计算开销,提高LLM推理效率。 - F5, accessed September 6, 2025, https://www.f5.com/company/blog/defining-an-ai-factory Mastering LLM
一、LLM泛化能力model Decoding核心:Tranformer模型示意图greedy decodingMindNLP/LLaMa3/run_llama3.py选择线性同余生成器(LCG)解码策略法 mindspore.communication import initfrom mindnlp.transformers import AutoTokenizer, AutoModelForCausalLMmodel_id = "LLM-Research seed = (a * seed + c) % m yield seed# 创建LCG生成器lcg_gen = lcg_generator(a, c, m, seed)model_id = "LLM-Research
然而,LLM的推理过程面临着巨大的挑战: 推理延迟高:LLM的推理过程需要大量的计算,特别是自回归生成过程,每生成一个token都需要进行一次前向传播,导致推理延迟很高。 推理优化技术旨在提高LLM的推理速度、降低显存占用、提高吞吐量和降低能源消耗,使LLM能够更广泛地应用于各种场景。 核心发现/更新点 通过对GitHub上最新LLM推理优化技术项目的深入分析,我们发现了以下几个关键趋势和更新点: 推理优化成为LLM应用的关键:推理优化已经成为LLM从实验室走向实际应用的关键环节,直接影响 2-3x 50% 中 高 flash-attention 连续批处理 10-20x 0% 高 低 vLLM 模型并行 线性提升 线性降低 中 高 DeepSpeed 量化感知训练 3-5x 75% 高 5. 实际意义/风险/未来趋势 5.1 实际意义 降低部署成本:推理优化能够显著降低LLM的部署成本,使LLM能够在更多的硬件平台上运行。
LLM的火爆之后,英伟达(NVIDIA)也发布了其相关的推理加速引擎TensorRT-LLM。TensorRT是nvidia家的一款高性能深度学习推理SDK。 而TensorRT-LLM是在TensorRT基础上针对大模型进一步优化的加速推理库,它号称可以增加4倍的推理速度。 所以本文将对其做一个简单的使用介绍。 加速推理 在当今的数字时代,速度是至关重要的。TensorRT-LLM可与传统方法相比,提供高达8倍的吞吐量。 这种性能上的飞跃在很大程度上归功于in_flight_batching。 广泛的模型支持 丰富多样的大型语言模型(llm),每个模型都是为特定任务量身定制的。推理工具的效用因其与各种模型无缝集成的能力而大大增强。 通过其直观的Python API, TensorRT-LLM使LLM优化和推理平民化,使这些先进技术能够为更广泛的受众所使用。
结果显示,在 Intel® 数据中心 GPU Max 1100C 上利用 BigDL LLM 进行 FP16 (Self-Speculative Decoding)的大语言模型推理,可以显著改善推理的延迟 这篇文章将为对大型语言模型推理性能感兴趣的读者提供有益的参考和启示。 在生成式人工智能领域,针对大型语言模型(LLM)的推理加速,已经开发出多种性能改进技术。 例如,低比特(例如 INT4)优化和 Speculative Decoding 等技术为加速 LLM 推理提供了有效的选择。 我们已经在 BigDL-LLM 中实现了低比特和 Self-Speculative Decoding 优化,以提高 Intel®数据中心 GPU 上的 LLM 推理速度。 下面的图表比较了在 Intel 数据中心 GPU Max 1100C 上,使用 BigDL-LLM 进行 FP16 推理时的推理延迟。
详情请参阅 GitHub README[4]以及官方文档[5]。 BigDL-LLM 还提供了大量常用开源 LLM的加速样例(e.g. BigDL-LLM 会在加载模型的过程中对模型进行 4-bit 低精度量化,并在后续推理过程中利用各种软硬件加速技术优化其执行。 只需使用 BigDL-LLM 中的 AutoModelForSpeechSeq2Seq 并设置参数 load_in_4bit=True,就能够以 INT4 精度加载并加速这一模型,从而显著缩短模型推理用时 5]https://bigdl.readthedocs.io/en/latest/doc/LLM/index.html [6]https://github.com/intel-analytics/BigDL 一行代码就行 4 一个简单模型就让ChatGLM性能大幅提升 5 推理1760亿参数的BLOOMZ,性能时延仅3.7秒
MCTS 在 LLM 场景中是如何实现的? PRMs 和 MCTS 是完全独立的技术,还是相辅相成的? PRMs:更加灵活,可以是 选项 1:在 llm 生成每一步解题步骤 step 后进行评估,发现错误时 llm 重新生成。 (论文把这个 llm 成为 generator )的生成的 output 打分,那这个 llm 怎么来呢? 这里用一个简明的例子,理解透 MCTS 在 llm 场景下的核心原理和工作流程。 step=3 selection: 在同一层之间 selection,由于这里的 node4 和 node5 都是 q-value 和 visit_time 都是一样的,因此这里选择 node4。
在 LLM 中实现和改进推理:四个主要类别 大多数读者对 LLM 推理模型可能已经比较熟悉,这里简单介绍一下它的定义。 基于 LLM 的推理模型,主要是通过生成中间步骤或结构化的“思考”过程,来解决多步骤问题。不同于只给出最终答案的传统问答式 LLM,推理模型会在推理过程中展现其思考路径,或者在内部完成推理。 2501.18841 的注释图 5. 这些发现突出了推理时扩展如何显着改进 LLM,其中小型 LLM 通过适当的推理计算量预算,可以胜过更大的模型。 来自“10 亿参数的 LLM 能否超越 4050 亿参数的 LLM? 用于LLM 推理和规划的推理时计算 (Inference-Time Computations for LLM Reasoning and Planning) 2 月 18 日,用于 LLM 推理和规划的推理时计算
论文认为这一差距主要源于当前的评估协议和指标未能全面反映LLM的能力,特别是在复杂推理任务中,准确性和一致性至关重要。 二、研究背景自大型语言模型(LLMs)问世以来,复杂的推理能力,尤其是数学问题解决方面的能力,被视为LLM能力的巅峰。 三、相关研究数学推理基准测试针对大型语言模型(LLMs)。为了评估大型语言模型在A数学推理方面的能力,已经开发了专门的基准测试,这些测试关注LLM在数学能力的不同方面。 Omni-Math专注于奥林匹克级别的数学推理,包含4428道竞赛级别的题目,分为超过33个子领域和10个难度级别,从入门级到专业国际竞赛。LLM推理的稳定性。 它涵盖了代数、几何、概率论和数论等多个领域的高级问题,全面评估模型的数学推理能力。论文选择了所有难度为5的题目,形成了包含134道题目的MATH500-L5。AIME2024-45。