首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏喔家ArchiSelf

    模型服务推理优化探索

    开发并部署模型应用肯定要考虑它们的服务成本。然而,钱并不是唯一的考虑因素,如果不能解决模型性能方面的问题,即使有很大的预算,模型服务仍会受到影响。 本文尝试讨论将 LLM 推理服务更改为高吞吐量引擎的挑战与应对方法。 1. 模型服务面临的挑战 模型的能力令人惊叹,但其独特的工作特性却给高性能服务部署带来了挑战。 一个优秀的调度策略不仅能通过并行计算加速推理过程,还能让拥有上百亿参数的模型(例如 100B 参数模型)在低配置设备(如搭载 T4 GPU 的 PC)上顺利运行。 这一方法为构建高性能、低延迟的模型推理服务平台提供了重要参考。 7. 推理优化的其他方法 在语言模推理优化领域,有一些方法已经相对成熟,并被广大工程师广泛使用。 FP4 的高效推理;LLM-FP4 展示了 FP4 表示方式在保持模型质量的同时大幅提升推理效率的能力;WINT8 是专为 MoE 架构模型设计的 INT8 量化方案,已在生产环境中落地应用;SpQR

    4.2K10编辑于 2025-07-08
  • 2025原生模型部署实战:基于腾讯构建高可用推理服务

    本文基于服务某金融科技企业的真实项目经验,详解如何利用腾讯容器服务(EKS)、GPU服务器(CGP)等产品,构建一套支持1000+并发、可用性达99.9%的模型推理服务,同时将推理成本降低40%。 一、项目背景:金融级模型部署的核心诉求本次服务的金融客户需构建智能客服模型系统,核心需求直击企业级部署的关键痛点:性能要求:支持每日100万次咨询请求,峰值并发1200,单轮推理延迟≤500ms安全合规 模型服务层:高性能推理引擎选型对比当前主流推理引擎后,我们选择TensorRT-LLM与vLLM组合方案,结合腾讯GPU优化能力实现性能突破:TensorRT-LLM:针对腾讯CGP服务器的NVIDIA Deployment部署推理服务,配置Pod反亲和性确保不同节点分散部署Ingress配置:使用腾讯CLB作为Ingress控制器,支持HTTPS加密与流量负载均衡### 模型推理服务Deployment :通过腾讯KMS加密模型文件,推理日志写入日志服务(CLS)并开启数据脱敏3.

    98010编辑于 2025-12-10
  • Mistral Forge + Small 4 实战:在腾讯上部署 119B MoE 模型推理服务

    Mistral Forge + Small 4 实战:在腾讯上部署 119B MoE 模型推理服务Mistral AI 刚刚在 NVIDIA GTC 2026 上发布了 Forge 平台和 Small 推理节点GPU 服务器 GN10Xp2×A100 80GB / 节点负载均衡CLB四层 TCP 转发模型存储COS 对象存储标准存储,就近地域容器编排(可选)TKE 容器服务GPU 节点池监控监控 + PrometheusGPU 利用率、推理延迟三、部署步骤3.1 创建 GPU 服务器在腾讯控制台创建实例:• 机型:GPU 计算型 GN10Xp(推荐)或 GN7• GPU:选择 2×NVIDIA 先部署 Small 4 开源版:按照本文步骤在腾讯上搭建推理服务2. 用 LoRA 微调:在 Small 4 基础上用自有数据做轻量微调(vLLM 支持动态加载 LoRA)3. 本文覆盖的技术栈:层级技术选型模型Mistral Small 4 119B(FP8)推理框架vLLM ≥ 0.17.0GPU腾讯 GN10Xp(2×A100 80GB)服务管理systemd反向代理Nginx

    62310编辑于 2026-03-18
  • 来自专栏spring-ai 系列

    语言模型推理框架调研

    引言语言模型(LLM)的迅猛发展及其在自然语言处理、代码生成、多模态交互等领域的广泛应用,对底层推理基础设施提出了前所未有的挑战。 本文主要对当前主流的语言模型推理框架进行系统性调研与分析,将深入探讨各个框架的核心架构、设计理念、关键技术特点,并结合性能基准测试数据,分析其在不同模型规模和部署场景下的适用性。 这些优化方向的有效结合,是现代 LLM 推理框架提升效率的关键。III. 主流模型推理框架当前,业界涌现了多款主流的模型推理框架,它们在设计理念、核心技术和适用场景上各有侧重。 SGLangSGLang (Structured Generation Language)是一个为语言模型(LLM)和视觉语言模型(VLM)设计的高速服务框架,由 LMSYS Org(也开发了 Vicuna 这可能会驱动未来推理框架在数据和资源管理方面向更统一的设计演进。IX. 总结与建议语言模型推理框架是释放 LLM 潜能、将其应用于实际生产的关键技术。

    3.9K20编辑于 2025-06-03
  • 来自专栏从头开始学习测试开发

    vLLM —— 企业级模型推理服务的性能怪兽

    一、引言:为什么推理性能是 AI 落地的最大瓶颈? 在 2024–2026 年的模型浪潮中,我们见证了参数规模的爆炸式增长——从 Llama 2 的 70B 到 Qwen-Max 的万亿级稀疏模型。 自 2023 年开源以来,它迅速成为 LMSYS、Together.ai、Fireworks.ai 等头部 AI 基础设施公司的底层核心技术,并被 Meta、阿里等大厂用于内部推理服务。 本文将深入剖析 vLLM 的核心原理、实战部署、性能对比及高级用法,助您将私有模型真正推向生产。 二、传统推理引擎的三痛点 在理解 vLLM 的突破之前,我们必须先看清传统方案的局限。 vLLM 已成为模型推理的事实标准之一。 结语 在 AI 工程化的深水区,推理性能就是产品竞争力。vLLM 通过 PagedAttention 这一精妙设计,一举解决了模型部署的核心瓶颈,让“私有模型服务”从奢侈品变为标配。

    1.5K10编辑于 2026-01-22
  • 来自专栏机器学习与统计学

    纯离线安装模型推理引擎,部署量化模型

    大家好,我是 Ai 学习的老章 继续介绍模型推理引擎+Llama.cpp,前文我写了# 内网部署 llama.cpp,运行量化模型,详细介绍了 llama.cpp 这个推理引擎,内网离线 cmake 本文我们用个更省事儿的内网离线部署方式——Docker,然后用其部署量化模型,其中踩坑若干,才有如此精炼、极简教程 1、联网环境拉取 llama.cpp 镜像并保存 选择镜像最好是官方,比如 llama.cpp docker images 4、准备模型文件 这个也需要办公网下载好(我一般去 modelscope 下载) pip install modelscope 之后,即可使用 modelscope download /dir 再传入内网: llama.cpp 服务需要模型文件才能运行,在你的 Linux 服务器上创建一个目录,用来存放 GGUF 格式的模型文件。 5、启动模型 docker run --rm --runtime nvidia -e TZAsia/Shanghai --gpus "device=2" -v /opt/data/ai/GGUF:/models

    1.5K10编辑于 2025-10-11
  • 来自专栏机器之心

    CPU推理提升4到5倍,苹果用闪存加速模型推理,Siri 2.0要来了?

    机器之心报道 编辑:杜伟、蛋酱 苹果这项新工作将为未来 iPhone 加入模型的能力带来无限想象力。 为了解决这种局限性,苹果的研究者提出在闪存中存储模型参数,至少比 DRAM 了一个数量级。接着在推理中,他们直接并巧妙地从闪存加载所需参数,不再需要将整个模型拟合到 DRAM 中。 与 CPU 和 GPU 中的 naive 实现相比,优化该成本模型并有选择地按需加载参数的闪存策略可以运行两倍于 DRAM 容量的模型,并将推理速度分别提升 4-5 倍和 20-25 倍。 Falcon 7B 模型的结果 延迟分析。在本文的模型中使用大小为 4 的窗口,每个 token 需要访问 3.1% 的前馈网络(FFN)神经元。 在 32 位模型中,这相当于每次读取的数据块大小为 35.5 KiB(按 2dmodel ×4 字节计算)。

    52310编辑于 2023-12-28
  • 来自专栏AI技术探索和应用

    使用vLLM加速语言模型推理

    介绍 vLLM 是一个快速且易于使用的库,用于 LLM 推理服务,和 HuggingFace 无缝集成。 区别于 chatglm.cpp 和 llama.cpp,仅是在 GPU 上的模型推理加速,没有 CPU 上的加速。 GPT-J (EleutherAI/gpt-j-6b, nomic-ai/gpt4all-j, etc.) 安装 pip install vllm 检查模型是否被 vLLM 支持,返回成功则是支持的。 from vllm import LLM llm = LLM(model=... 分别在一个主节点和多个工作节点安装 ray 并运行服务

    24.1K21编辑于 2024-03-13
  • 来自专栏算法一只狗

    国内热门推理模型指南

    自从OpenAI o1模型出现之后,把模型数学推理能力和代码编程能力推向了一个新的高度。国内各大厂商也看到了这个新的蓝海,纷纷推出了自家的推理模型。 因此这篇文章主要介绍三个最近比较热门的推理模型。 在六个多模态推理基准测试中,LLaVA-o1超越了许多更大的开源模型(Llama-3.2V、InternVL2等),甚至也超越了一些闭源模型(Gemini Pro 1.5、GPT-4o mini)。 使用GPT-4o和上面的四个阶段来进行生成。 在训练过程中,模型根据需要自行选择这些标签,根据其自己的判断激活每个阶段。与OpenAI o1模型一样,所有阶段都由模型在单个推理过程中完成。 写在最后这次把国内的一些近期有名的推理模型做了一些简单的介绍和基础的评测,发现这些专门针对推理模型应该都是沿用了OpenAI o1模型的那个技术。

    81310编辑于 2024-12-24
  • 来自专栏算法一只狗

    国内AI推理模型可用吗?

    我这里推荐两个比较强的推理模型。 说实话,就算我自己打字也觉得这个假期太复杂了,简直像是念咒语一样 那时候中国网友就为了这个调休到底最后休了多少天而计算起来 既然这么难,恰好可以丢给模型进行问答,看看具备了数学推理能力的k0-math 说实话,就算我自己打字也觉得这个假期太复杂了,简直像是念咒语一样 那时候中国网友就为了这个调休到底最后休了多少天而计算起来 既然这么难,恰好可以丢给模型进行问答,看看具备了数学推理能力的k0-math 说实话,就算我自己打字也觉得这个假期太复杂了,简直像是念咒语一样 那时候中国网友就为了这个调休到底最后休了多少天而计算起来 既然这么难,恰好可以丢给模型进行问答,看看具备了数学推理能力的k0-math 重新纠正后,告诉它只有10个周末,它终于答对了这道题目,答案是只多休了4天假期。 Qwen版本o1推理模型QWQ 说实话,这个模型被称为Qwen QWQ,我是有点惊讶的。

    39810编辑于 2025-01-10
  • 来自专栏xiaosen

    FastLLM高性能模型推理

    纯c++实现,便于跨平台移植,可以在安卓上直接编译 支持读取Hugging face原始模型并直接量化 支持部署Openai api server 支持多卡部署,支持GPU + CPU混合部署 install.sh -DUSE_CUDA=ON -D CMAKE_CUDA_COMPILER=$(which nvcc) 以Qwen1.5-0.5B为例 # 通过huggingface接口创建模型 fastllm模型 # from_hf接口只能接受原始模型,或者ChatGLM的int4, int8量化模型,不能转换其它量化模型 from ftllm import llm model = llm.from_hf (model, tokenizer, dtype = "float16") model.save("qwen0_5B.flm") 现在可以使用fastllm_pytools包来启动一个模型对话服务了 : python3 -m fastllm_pytools.chat --path /home/qwen0_5B.flm 也可以根据webui.py指定的参数来启动webui服务: python3 -m

    64420编辑于 2024-11-21
  • 来自专栏机器之心

    GPT-4拿下最难数学推理数据集新SOTA,新型Prompting让模型推理能力狂升

    机器之心专栏 机器之心编辑部 模拟人类推理过程,华为诺亚提出 Progressive-Hint Prompting (PHP) 引导模型渐近正确答案。 比如,在现在最难的数学推理数据集 MATH 上,GPT-4+CoT 只有 42.5%,而 GPT-4+PHP 在 MATH 数据集的 Nember Theory (数论) 子集提升 6.1%, 将 MATH 具体如下图所示: 作者希望 PHP prompt 能够让模型学习到两种映射模式: 1)如果给的 Hint 是正确答案,那么返回的答案依然要是正确答案 (具体如上图所示的「Hint is the correct GPT-3.5-Turbo 和 GPT-4 作者按照以前的工作设置,使用文本生成模型进行实验。 在部署 GPT-4 模型后,作者能够在 SVAMP、GSM8K、AQuA 和 MATH 基准测试上实现新的 SOTA 性能。作者提出的 PHP 方法不断改善了 GPT-4 的性能。

    48720编辑于 2023-05-16
  • 来自专栏深度学习与python

    字节跳动开源 AIBrix:填补原生模型推理“系统层”空白

    AIBrix 与 vLLM 等推理引擎深度协同,持续优化推理效率,并融合多项前沿研究成果,推动模型推理走向更加高效、可落地的生产化阶段。 传统微服务框架(如 KNative)或服务网格(如 Istio)在鉴权、流量管控、版本升级等通用能力上已经相当成熟,但对于模型服务而言仍然显得过于臃肿,且缺少针对性的优化。 控制平面组件主要负责管理模型元数据注册、自动扩缩容、模型适配器注册,并执行各种策略。数据平面组件则提供可配置的请求派发、调度与推理服务能力,实现灵活且高性能的模型推理执行。 我们并不追求让模型像 FaaS 一样彻底“无服务器化”,因为这在现实中尚难达到理想效果,也并非企业级生产环境的最佳形态;更可行的路线是借鉴并改进 Serverless 的相关思路,对模型的部署环节进行有针对性的优化 通过与 vLLM 开源社区的深度协作,我们希望不断迭代并完善在原生环境下的模型部署架构,让企业能够更加轻量、弹性地构建面向生产的 LLM 推理服务

    3.2K10编辑于 2025-03-07
  • 来自专栏算法进阶

    模型模型压缩与有效推理综述

    它是降低大型语言模型内存成本和加速推理的最直接方法,特别是在支持低比特数据类型快速操作的硬件上。量化方法有许多优点,例如减少内存占用、提高推理速度等。 然而,离散的Lo范数在梯度下降优化中存在挑战,因此使用硬混凝土分布作为二进制掩码的近似,如图4。 图4 使用蒙特卡洛模拟对硬混凝土分布的近似概率密度直方图。 虽然这些方法难以提高推理速度,但它们可以与N:M稀疏性结合以加速推理速度。这些方法需要最少的校准数据,即对模型的一次前向传递专门获取激活值或梯度以计算权重的重要性。 模型蒸馏可分为微调蒸馏和预训练蒸馏两类。表4展示了各种中等规模模型蒸馏方法的训练阶段、知识来源和损失函数。 表4 BERT各种KD方法的总结。 因此,选择预训练蒸馏和微调蒸馏之间的通用方法取决于如何在模型大小和性能之间进行权衡。 5.3 语言模型的知识蒸馏方法 大型语言模型数量不断增加,但许多模型是闭源的,这限制了学生模型的知识获取。

    1.5K10编辑于 2024-07-10
  • 来自专栏AI工程落地

    语言模型推理优化论文-EdgeMoE

    解决方案 - EdgeMoE 提出 EdgeMoE,一个专门为混合专家(Mixture-of-Experts, MoE)架构的稀疏大型语言模型设计的设备端推理引擎。 EdgeMoE 的核心设计理念是将模型分区存储到不同的存储设备中: 非专家权重(“热权重”):常驻设备内存(因为它们每个 token 推理都需要使用)。 例子如下: 2.把所有可用位宽(如INT2/4/8、FP32)分别去量化全部专家,得到一个最接近用户容忍损失的位宽上下界。 离线阶段:基于上述观察,EdgeMoE 在多个数据集上执行模型,构建专家激活统计档案。生成一个字典,键为前两连续 MoE 层的专家激活状态,值为下一层各专家激活概率。该统计档案供在线推理使用。 ,从而在资源受限的边缘设备上实现了大型稀疏 MoE 语言模型的高效(内存+计算)推理

    47810编辑于 2025-07-18
  • 来自专栏自然语言处理

    推理模型的后训练增强技术--LLM 推理模型的现状

    通常,首先使用 SFT 在高质量的指令数据上训练模型,然后使用 RL 进一步改进以优化特定行为**。** 4. ”的响应 通过将批判转换为文本建议来更新原始模型响应,从而改进输出 通过迭代执行步骤 1-4模型可以改进其原始响应。 关联思绪链 (Chain-of-Associated-Thoughts) 2 月 4日,CoAT:用于增强大型语言模型推理的关联思绪链框架 (CoAT: Chain-of-Associated-Thoughts 模型的第一次尝试可能是: def is_even(n): return n % 2 # ❌ 错误:应该是 `== 0` 模型使用公共测试用例测试此实现: is_even(4) True 比如,Claude 3.7 Sonnet 和 Grok 3 都为用户提供了显式的“思考”开关,而 OpenAI 则采用了模型切换的方式,要求用户在使用推理能力更强的模型时,手动切换到 GPT-4o/4.5

    1.1K10编辑于 2025-03-13
  • 来自专栏AutoML(自动机器学习)

    模型推理框架 vLLM 源码解析(一)

    该脚本会自动将模型以张量并行的方式在两个 GPU 上进行推理计算。 整个推理过程大大致流程如下图所示,即 1 给定一定数量的 prompts(字符串数组) 2. vllm 会使用 Scheduler 模块自动对需要推理句子进行调度 3. 根据调度的结果,使用 tokenizer 将字符串转换成 prompt id,然后喂给 model 进行计算得到 logits 预测结果 4. WAITING = enum.auto() # 等待中,句子还没开始推理,或者推理还未结束 RUNNING = enum.auto() # 运行中 SWAPPED = enum.auto 如果我们设置SamplingParams.n=2(第 4 节会介绍),那么在推理过程中,SequenceGroup会新增一个 Sequence,这个新增的 Sequence 的 seq_id 和原来的那个

    3.6K10编辑于 2024-02-05
  • 来自专栏AIGC大模型应用

    模型推理能力的局限性

    然而,尽管这些模型表现出色,它们在推理和理解复杂上下文方面仍然面临重大挑战。这些模型擅长识别并模仿训练数据中的模式,但当任务需要真正的理解和逻辑推理时,它们往往遇困。 当需要整合对话或文本的多个部分时,模型可能会出现推理错误。例如,在一场长时间的讨论或复杂的故事叙述中,模型可能会忘记或误解之前的信息,导致后续的矛盾或错误结论。 1.4 回答无解问题回答无解问题是 LLM 推理能力的一挑战。当面对悖论、无明确答案的问题,或与已知事实相矛盾的问题时,LLM 可能难以提供有意义或连贯的回答。 2 现实案例:错误的推理问题:"一个水壶装有 8 个单位的水,还有两个容量为 5 和 5 的空水壶。""目标是通过倒水,使前两个水壶各包含 4 个单位的水,而第三个水壶保持为空。"" 然而,如果问题稍作修改,将两个空水壶的容量改为 5 和 4(而非 5 和 5),所有 LLM 都能够正确回答。这表明,它们可能只是记住了某些已知问题的解决方案,而不是进行真正的推理

    65300编辑于 2025-03-24
  • 来自专栏AI学习笔记

    安全推理:TEE+模型加密框架

    平台独立性 :TEE 技术可以应用于各种计算平台,包括智能手机、服务器和计算环境。TEE 的局限性性能开销 :TEE 的安全机制可能会引入一定的性能开销,影响系统的运行效率。 通过隔离敏感数据和代码,TEE 能够有效抵御各种攻击,为模型加密推理提供了一个安全的基础。III. 模型推理加密方法在模型推理过程中,数据的加密处理至关重要。 对于大规模模型推理,可能需要结合多种加密技术,以在安全性和效率之间取得平衡。IV. TEE+模型加密框架实现方案结合 TEE 技术和模型加密方法,我们可以构建一个安全的模型推理框架。 TEE+模型加密推理的实例分析为了更好地理解 TEE+模型加密框架的实际应用,我们选取了一个医疗诊断的实例进行分析。 结论TEE+模型加密框架为解决数据隐私与安全问题提供了一种创新的解决方案。通过结合 TEE 技术和模型加密方法,该框架在保护数据隐私的前提下,实现了高效、准确的模型推理

    86210编辑于 2025-07-15
  • 来自专栏AI工程落地

    语言模型推理优化论文-Reasoning on a Budget

    可控测试时间计算需要用户预先设置一个预算约束,而自适应测试时间计算则会根据问题难度和模型推理能力动态分配计算资源。这两种方法都通过衡量推理路径中每个步骤的性能和效率指标来实现高效推理。 -精度平衡 Parallel 自一致性提前终止: 当多数投票结果稳定时(如5个样本中4个答案相同),立即停止采样,避免无效计算。 推理感知微调: 训练时模拟推理过程(如Best-of-N采样),使模型适应测试环境。 L2方法概述 Prompting-based 简洁思维链(CCoT): 指令"逐步思考并保持简洁"使GPT-4输出长度减少40%,但弱模型(如GPT-3.5)在数学题上性能下降。 长短思维链蒸馏: 教师模型生成长短两种CoT 学生模型学习"何时用短CoT"(如添加[简单]标签) 突破:模型自适应选择推理深度。

    46410编辑于 2025-07-21
领券