首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏架构驿站

    LLM 推理引擎之争:Ollama or vLLM ?

    随着自然语言处理(NLP)和大规模语言模型(LLM)技术的迅猛发展,众多创新模型不断涌现,为开发者提供了多样化的选择。 单线程推理:Ollama 设计采用单线程推理架构,简化了系统结构,避免了多线程带来的复杂性和资源竞争。这使得 Ollama 更加适合低并发的场景,能够高效地完成推理任务。 性能提升:传统推理框架中,KV Cache 占用大量显存,尤其在长序列推理时问题更为严重。 3、资源利用率优化: FP16 推理:vLLM 默认使用半精度浮点(FP16)格式推理,结合 GPU 的 Tensor Core 加速计算,推理速度比 FP32 格式快 2 倍以上。 例如,对于初学者或希望快速上手的用户,可以优先选择 Ollama 作为入门,待熟悉 LLM 推理流程和原理后,再根据更复杂应用的需求,逐步转向 vLLM 以获得更高的性能和更强的扩展性。

    1.7K11编辑于 2025-04-24
  • 来自专栏AIGC大模型应用

    LLM 既能“看”又能“推理”!

    DeepSeek-R1 会推理,GPT-4o 会看。能否让1 LLM既能看又能推理?DeepSeek-R1取得很大成功,但它有个问题——无法处理图像输入。 若想要一个既能看懂图像,又能深度推理的模型?物理问题示例我是一个学生,向 LLM 提问物理问题,并附带一张图像。 如若输入文本 "Donald Trump is the",LLM可能预测下一 token 为 "POTUS"(美国总统)。LLM 预测过程示意图:那VLM咋工作的? RL在 LLM 领域表现出色,提升了推理能力(如 RLHF 训练的 GPT-4)。若用 RL 训练 VLM,是否能打造更强的视觉推理模型?以图像分类任务为例。 如题目正确答案 2 bpm,但 GPT-4o 回答错误:GPT-4o错误回答:如能让 LLM 在视觉推理方面更强,或许能正确解答。期望的 VRM 结果:

    42321编辑于 2025-03-27
  • LLM 系列(六):模型推理

    引言 大型语言模型(LLM)的训练过程虽然耗资巨大且备受关注,但其真正的价值实现,却发生在 推理(Inference) 这一最终环节。 推理是将训练好的模型应用于实际,根据 用户输入(Prompt)生成响应的过程 。无论是驱动一个实时聊天机器人,还是进行离线文档分析,高效、可靠的推理是所有 LLM 应用的基石。 本文将深入剖析 LLM 推理的全貌,从其根本的自回归生成机制出发,逐层揭示其 核心挑战、关键性能指标、优化技术、分布式策略以及当前主流的推理框架 。 本文旨在为读者构建一个关于 LLM 推理的完整知识图谱,理解其“表”之性能与“里”之原理。 推理的本质:一个两阶段的自回归过程 要理解推理优化,首先必须掌握 LLM 生成文本的底层机制。 这是 vLLM、TensorRT-LLM 等现代推理服务器的标配功能。

    3.3K24编辑于 2025-08-04
  • 来自专栏JavaEdge

    LLM 既能“看”又能“推理”!

    怎么想、怎么做,全在乎自己「不断实践中寻找适合自己的大道」 DeepSeek-R1 会推理,GPT-4o 会看。能否让 1 LLM既能看又能推理? 若想要一个既能看懂图像,又能深度推理的模型? 物理问题示例 我是一个学生,向 LLM 提问物理问题,并附带一张图像。 如若输入文本 "Donald Trump is the",LLM可能预测下一 token 为 "POTUS"(美国总统)。LLM 预测过程示意图: 那VLM咋工作的? RL在 LLM 领域表现出色,提升了推理能力(如 RLHF 训练的 GPT-4)。若用 RL 训练 VLM,是否能打造更强的视觉推理模型? 以图像分类任务为例。 如题目正确答案 2 bpm,但 GPT-4o 回答错误: GPT-4o错误回答: 如能让 LLM 在视觉推理方面更强,或许能正确解答。

    28710编辑于 2025-06-01
  • LLM推理中 KVCache 提示推理效率的几点应用

    LLM推理中KVCache提示推理效率的几点应用这是基于2025AICon大会的马腾的演讲整理而成通过kvCache的优化提升效率,如模型算法优化减少KVCache产生量,KVCache压缩,KVCache 复用,KVCache共享,前言在大模型应用的浪潮中,有一个问题始终困扰着从业者:如何在保证服务质量的同时,降低推理成本、提高吞吐效率? 在分布式推理场景下,KVCache需要在不同的GPU甚至不同的服务器之间传输,带宽成为重要的瓶颈。管理复杂性也不可小觑。 分离指的是将KVCache从模型推理过程中分离出来,形成独立的服务。模型推理节点不再负责KVCache的存储和管理,而是专注于计算任务。 这种分离带来了几个好处:推理节点可以更专注于计算,提高资源利用率;KVCache服务可以独立扩展,适应不同的负载特征;不同推理节点之间可以共享KVCache,减少重复计算。

    30010编辑于 2026-01-14
  • 来自专栏DeepHub IMBA

    解决推理能力瓶颈,用因果推理提升LLM智能决策

    因果AI能够影响智能体AI生命周期的多个环节,特别是推理、可观察性和可解释性这几个方面。 LLM推理能力的现实困境 苹果最近的研究(论文1)深入分析了LLM推理局限性。 这些发现暴露了依赖LLM解决问题的风险。LLM看起来无法进行真正的逻辑推理,只是在模仿训练数据中观察到的推理步骤。 要让AI真正具备推理和问题解决能力,它必须在算法层面理解因果关系。 LLM推理——在LLM/LRM训练中提供WHAT、HOW和WHY成分 因果AI能够提供几个关键的推理组件:根本原因分析(检测和排序导致结果的因果驱动因素),假设场景和反事实分析(确定替代行动相对于当前状态的后果 内省机制增强推理过程 从LLM训练转到推理阶段,我们来看看如何通过添加"内省"步骤来进一步改善智能体推理。 智能体AI的核心架构 一个完整的智能体AI平台包含几个关键模块。 总结 当前LLM推理局限性已成为制约智能体AI企业级应用的核心瓶颈。由于智能体系统在任务规划阶段高度依赖LLM能力,这种局限性直接影响了AI智能体的自主决策水平。

    40910编辑于 2025-11-15
  • 来自专栏自然语言处理(NLP)论文速递

    LLM推理速度飙升23倍!Continuous Batching:解锁LLM潜力!

    | paperweekly 本文介绍一篇 LLM 推理加速技术相关的文章,值得读一读。 LLMs 在现实应用中的计算成本主要由服务成本所主导,但是传统的批处理策略存在低效性。 (LLM)的推断过程以及传统批处理策略中存在的低效性。 它可以提高 LLM 生成的内存效率。 这些策略和方法旨在充分利用GPU内存,减少内存开销,从而提高LLM推断的吞吐量和效率。 Q10. 提高计算资源的利用率:LLM 推断通常是内存 - IO 受限的,而不是计算受限的,意味着加载数据到 GPU 的计算核心比在计算核心上执行 LLM 计算花费的时间更多。 这样做更有效地利用了芯片的内存带宽,提高了计算利用率、吞吐量,并降低了 LLM 推断的成本。 然而,LLM 推断是一个迭代的过程。

    3.2K31编辑于 2023-10-24
  • 来自专栏JadePeng的技术博客

    LLM 推理和应用 开源框架梳理

    之前对LLM 推理和应用了解不多,因此抽时间梳理了一下,我们从模型量化,模型推理,以及开发平台等三个层面来梳理分析。 GGML是一个C写的库,可以将LLM转为为GGML格式,通过量化等技术让LLM方便进行加载和推理 采用量化技术,将原有大模型预训练结果量化(即将原有大模型FP16精度压缩成INT8、INT6精度 二进制文件编码 M系列芯片推荐使用Metal启用GPU推理,以显著提升速度。 llama.cpp 支持在本地CPU上部署量化后的模型,也就是结合上面提到的GGML,这样在超低配的硬件也能运行LLM。 如果CPU推理,llama.cpp 结合模型int4量化,最佳的选择 GPU推理,微软的 DeepSpeed-FastGen 是一个好的选择 手机终端推理,MLC LLM可以作为候选 大模型应用开发平台 可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。

    2.9K10编辑于 2024-03-13
  • 来自专栏计算机工具

    LLM前言:推理加速、模型微调对齐、开源LLM、Agent、多模态

    LLM前言:推理加速、模型微调/对齐、开源LLM、Agent、多模态 推理加速 推理加速是AI技术中的关键环节,能让AI模型在实际应用中更智能、更高效。推理加速技术主要通过算法优化和硬件加速来实现。 算法优化:通过剪枝、量化、压缩等技术减小模型的大小和计算复杂度,从而提高推理速度和效率。 硬件加速:利用GPU、FPGA、ASIC等专门的硬件加速器来加速AI推理的过程。这些硬件加速器针对AI推理的特点进行设计和优化,从而提高推理速度和效率。 推理加速技术在智能语音、图像识别、自然语言处理等领域有广泛应用,能提升这些技术的识别速度和精度,从而提升用户体验。 开源LLM 开源LLM(大型语言模型)是指公开源代码的大型语言模型,允许开发者自由使用、修改和分发。开源LLM的出现降低了AI技术的门槛,促进了AI技术的创新和发展。

    39610编辑于 2024-12-14
  • 来自专栏存储公众号:王知鱼

    LLM推理提速:写在UCM将开源之际

    然而,在这条高效的智能生产线上,一个看似不起眼的“内存墙”问题——KV Cache的急剧膨胀,正成为制约LLM推理效率、吞吐量和长上下文应用,成为核心瓶颈。 本文将深入剖析这些架构的设计哲学与实践价值,助您洞悉LLM推理优化的前沿趋势。 阅读收获 掌握LLM推理中KV Cache内存瓶颈的本质与经济驱动力。 这些挑战背后,揭示了LLM推理领域一个根本性范式转变。早期,LLM优化主要集中在提升原始计算能力(FLOPs)。 参考阅读 《月之暗面:存储换算,倍增LLM推理效率》 主要内容:该文章深入探讨了KVCache(Key-Value Cache)技术在大型语言模型(LLM推理中的应用与优化。 文章首先介绍了Mooncake系统,该系统通过增加存储资源来减少计算开销,提高LLM推理效率。

    1.6K10编辑于 2025-10-09
  • 来自专栏AI SPPECH

    LLM推理优化技术:从理论到实践

    然而,LLM推理过程面临着巨大的挑战: 推理延迟高:LLM推理过程需要大量的计算,特别是自回归生成过程,每生成一个token都需要进行一次前向传播,导致推理延迟很高。 能源消耗高:LLM推理过程需要大量的计算资源,能源消耗很高,不符合绿色AI的发展趋势。 为了解决这些问题,LLM推理优化技术应运而生。 推理优化技术旨在提高LLM推理速度、降低显存占用、提高吞吐量和降低能源消耗,使LLM能够更广泛地应用于各种场景。 核心发现/更新点 通过对GitHub上最新LLM推理优化技术项目的深入分析,我们发现了以下几个关键趋势和更新点: 推理优化成为LLM应用的关键:推理优化已经成为LLM从实验室走向实际应用的关键环节,直接影响 2025年,LLM推理优化技术已经取得了显著的进展,算法-硬件协同优化、批处理技术、内存优化技术等的发展,大幅提高了LLM推理效率,降低了部署成本,促进了LLM生态的发展。

    68310编辑于 2026-01-01
  • 基于MindSpore NLP的LLM推理 - - 实操

    一、LLM泛化能力model Decoding核心:Tranformer模型示意图greedy decodingMindNLP/LLaMa3/run_llama3.py选择线性同余生成器(LCG)解码策略法 mindspore.communication import initfrom mindnlp.transformers import AutoTokenizer, AutoModelForCausalLMmodel_id = "LLM-Research seed = (a * seed + c) % m yield seed# 创建LCG生成器lcg_gen = lcg_generator(a, c, m, seed)model_id = "LLM-Research

    32510编辑于 2025-01-18
  • 来自专栏DeepHub IMBA

    使用TensorRT-LLM进行高性能推理

    LLM的火爆之后,英伟达(NVIDIA)也发布了其相关的推理加速引擎TensorRT-LLM。TensorRT是nvidia家的一款高性能深度学习推理SDK。 而TensorRT-LLM是在TensorRT基础上针对大模型进一步优化的加速推理库,它号称可以增加4倍的推理速度。 所以本文将对其做一个简单的使用介绍。 加速推理 在当今的数字时代,速度是至关重要的。TensorRT-LLM可与传统方法相比,提供高达8倍的吞吐量。 这种性能上的飞跃在很大程度上归功于in_flight_batching。 广泛的模型支持 丰富多样的大型语言模型(llm),每个模型都是为特定任务量身定制的。推理工具的效用因其与各种模型无缝集成的能力而大大增强。 通过其直观的Python API, TensorRT-LLM使LLM优化和推理平民化,使这些先进技术能够为更广泛的受众所使用。

    2.5K20编辑于 2023-10-23
  • 来自专栏自然语言处理

    推理大模型的后训练增强技术--LLM 推理模型的现状

    LLM 中实现和改进推理:四个主要类别 大多数读者对 LLM 推理模型可能已经比较熟悉,这里简单介绍一下它的定义。 基于 LLM推理模型,主要是通过生成中间步骤或结构化的“思考”过程,来解决多步骤问题。不同于只给出最终答案的传统问答式 LLM推理模型会在推理过程中展现其思考路径,或者在内部完成推理。 要了解推理模型是如何被开发和优化的,分别拆解不同的技术仍然是一个高效的思路。在此前的文章 理解推理 LLM 中,对推理 LLM 进行了更细致的分类,并将其归纳为四个主要类别,如下图所示。 这些发现突出了推理时扩展如何显着改进 LLM,其中小型 LLM 通过适当的推理计算量预算,可以胜过更大的模型。 来自“10 亿参数的 LLM 能否超越 4050 亿参数的 LLM? 用于LLM 推理和规划的推理时计算 (Inference-Time Computations for LLM Reasoning and Planning) 2 月 18 日,用于 LLM 推理和规划的推理时计算

    1K10编辑于 2025-03-13
  • 来自专栏NLP/KG

    LLM推理:如何通过PRMs和MCTS提升大型语言模型的推理能力

    MCTS 在 LLM 场景中是如何实现的? PRMs 和 MCTS 是完全独立的技术,还是相辅相成的? 它们各自解决不同的问题,却能在大模型推理优化中形成强大合力。 转载:聊聊推理模型中的PRMs与MCTS 1. PRMs:更加灵活,可以是 选项 1:在 llm 生成每一步解题步骤 step 后进行评估,发现错误时 llm 重新生成。 (论文把这个 llm 成为 generator )的生成的 output 打分,那这个 llm 怎么来呢? 这里用一个简明的例子,理解透 MCTS 在 llm 场景下的核心原理和工作流程。

    85810编辑于 2025-04-26
  • 来自专栏量子位

    用BigDL-LLM 即刻加速百亿级参数LLM推理 | 最“in”大模型

    BigDL-LLM 还提供了大量常用开源 LLM的加速样例(e.g. BigDL-LLM 会在加载模型的过程中对模型进行 4-bit 低精度量化,并在后续推理过程中利用各种软硬件加速技术优化其执行。 常见应用场景“语音助手”为例,展示采用 BigDL-LLM 快速实现 LLM 应用的案例。 只需使用 BigDL-LLM 中的 AutoModelForSpeechSeq2Seq 并设置参数 load_in_4bit=True,就能够以 INT4 精度加载并加速这一模型,从而显著缩短模型推理用时 一行代码就行 4 一个简单模型就让ChatGLM性能大幅提升 5 推理1760亿参数的BLOOMZ,性能时延仅3.7秒

    74220编辑于 2023-09-08
  • 来自专栏深度学习与python

    使用 BigDL-LLM 加速 Intel ® 数据中心 GPU 上的 LLM 推理

    结果显示,在 Intel® 数据中心 GPU Max 1100C 上利用 BigDL LLM 进行 FP16 (Self-Speculative Decoding)的大语言模型推理,可以显著改善推理的延迟 这篇文章将为对大型语言模型推理性能感兴趣的读者提供有益的参考和启示。 在生成式人工智能领域,针对大型语言模型(LLM)的推理加速,已经开发出多种性能改进技术。 例如,低比特(例如 INT4)优化和 Speculative Decoding 等技术为加速 LLM 推理提供了有效的选择。 我们已经在 BigDL-LLM 中实现了低比特和 Self-Speculative Decoding 优化,以提高 Intel®数据中心 GPU 上的 LLM 推理速度。 下面的图表比较了在 Intel 数据中心 GPU Max 1100C 上,使用 BigDL-LLM 进行 FP16 推理时的推理延迟。

    67210编辑于 2024-03-26
  • 论文解读-你的LLM能够稳定推理吗?

    论文认为这一差距主要源于当前的评估协议和指标未能全面反映LLM的能力,特别是在复杂推理任务中,准确性和一致性至关重要。 二、研究背景自大型语言模型(LLMs)问世以来,复杂的推理能力,尤其是数学问题解决方面的能力,被视为LLM能力的巅峰。 三、相关研究数学推理基准测试针对大型语言模型(LLMs)。为了评估大型语言模型在A数学推理方面的能力,已经开发了专门的基准测试,这些测试关注LLM在数学能力的不同方面。 Omni-Math专注于奥林匹克级别的数学推理,包含4428道竞赛级别的题目,分为超过33个子领域和10个难度级别,从入门级到专业国际竞赛。LLM推理的稳定性。 为了评估美国数学邀请赛(AIME)级别的语言模型(LLM)性能,AIME题集设计了一系列复杂的任务,旨在测试逻辑思维、抽象推理和精确计算能力。这一资源旨在拓展LLM解决复杂数学问题的能力。

    23710编辑于 2026-01-16
  • 来自专栏自然语言处理

    图解KV Cache:解锁LLM推理效率的关键

    背景 LLM 用于推理的时候就是不断基于前面的所有 token 生成下一个 token。 假设现在已经生成了 t 个 token,用 x_{1:t} 表示。 KV Cache 原理 信息 LLM推理过程很好理解,但是这个简单的实现存在一个问题——存在不少的重复计算导致计算效率不是很高 只需要看 LLM 的连续两次前向传播推理计算就很容易理解为什么说存在重复计算了 KV 缓存是加速 LLM 推理的关键技术之一。通过减少重复计算,它显著提升了生成速度,但也带来了内存占用的挑战。理解其工作原理有助于更好地优化和部署大语言模型。 参考资料 LLM 推理加速 - KV Cache LLM 推理优化探微 (2) :Transformer 模型 KV 缓存技术详解 【大模型LLM基础】自回归推理生成的原理以及什么是KV Cache? 量化技术详解:深入理解LLM推理性能优化

    3.3K12编辑于 2025-03-04
  • 来自专栏机器之心

    谷歌:LLM找不到推理错误,但能纠正它

    机器之心报道 编辑:Panda LLM 找不到推理错误,但却能纠正错误! 今年,大型语言模型(LLM)成为 AI 领域关注的焦点。 LLM 在各种自然语言处理(NLP)任务上取得了显著的进展,在推理方面的突破尤其令人惊艳。但在复杂的推理任务上,LLM 的表现仍然欠佳。 那么,LLM 能否判断出自己的推理存在错误? 为了测试当前最佳 LLM推理能力,研究者基于新数据集对它们进行了基准评测。结果发现,当前 SOTA LLM 也难以发现错误,即便是客观的明确的错误。 他们猜测:LLM 无法发现错误是 LLM 无法自我校正推理错误的主要原因,但这方面还有待进一步研究。 本文提出使用回溯方法来校正输出,利用错误的位置信息来提升在原始任务上的性能。 研究者猜测:LLM 无法发现错误是 LLM 无法自我校正推理错误的主要原因。

    1.1K10编辑于 2023-11-27
领券