vLLM v1 vLLM从v0.6.0开始,为了解决功能碎片化、模块之间耦合严重、技术债等问题,并行开发了v1。v1不仅解决了上述问题,还提升了推理性能,让CPU调度开销更小。 :MyLlava") 平台插件可以支持一个新的硬件,使用方式如下: 分布式并行 单机多卡 单机多卡使用python的多进程实现,vllm/vllm/v1/executor/multiproc_executor.py at main · vllm-project/vllm,3D并行(张量并行、流水线并行、专家并行)的每一个分片是一个进程。 /vllm/v1/executor/ray_distributed_executor.py at main · vllm-project/vllm。 :vllm-project/vllm-ascend: Community maintained hardware plugin for vLLM on Ascend 昇腾vllm插件文档:Quickstart
2 vllm-ascend安装 2.1 使用vllm+vllm-ascend基础镜像 基础镜像地址:https://quay.io/repository/ascend/vllm-ascend? git clone --depth 1 --branch v0.8.4 https://github.com/vllm-project/vllm cd vllm VLLM_TARGET_DEVICE= # Install vLLM Ascend git clone --depth 1 --branch v0.8.4rc1 https://github.com/vllm-project/vllm-ascend.git cd vllm-ascend pip install -e . 其余具体参数含义请参考vllm官方文档
1. vLLM 简介vLLM(Very Large Language Model)是一个高效的推理引擎,专为大语言模型(LLM)优化,旨在提升推理性能并降低显存占用。 vLLM 主要由 UC 伯克利开发,采用了一种称为 PagedAttention 的创新机制,使其在多 GPU 环境下也能高效地执行推理任务。为什么使用 vLLM? , "vLLM 的优势是什么?"] 性能优化6.1 增加批量推理vLLM 的批量处理机制可以大幅提高吞吐量。prompts = ["介绍 vLLM", "vLLM 的优势是什么?", "如何安装 vLLM?"] 推荐进一步学习: vLLM 官方文档:https://github.com/vllm-project/vllm Hugging Face LLM 介绍:https://huggingface.co/docs
vLLM 作为目前最受欢迎的开源 LLM 推理和服务框架,近期发布了一系列重大更新。 核心架构 vLLM Router 是一款专为 vLLM 打造的高性能、轻量级负载均衡器,采用 Rust 构建以实现最小开销。 vLLM Router 架构示意图 智能负载均衡策略 vLLM Router 提供多种负载均衡算法: 策略 特点 一致性哈希 确保相同路由键的请求"粘性"路由到同一工作节点,最大化 KV 缓存复用 Power 这一成就离不开 vLLM 社区 1,969 位贡献者的努力。 本文由 AI 辅助编写,基于 vLLM 官方博客https://blog.vllm.ai/内容整理。
vLLM Semantic Router 大家好,我是 Ai 学习的老章 vLLM 团队刚刚发布了一个重磅项目 —— vLLM Semantic Router v0.1 Iris,这是一个面向多模型协作 生态整合 vLLM Semantic Router 已经和主流 AI 基础设施深度整合: 推理框架: vLLM Production Stack - vLLM 生产部署参考栈 NVIDIA Dynamo 安装 pip install vllm-sr # 3. 初始化配置 vllm-sr init # 4. 编辑 config.yaml 配置后端模型 # 5. }' 常用命令: # 查看日志 vllm-sr logs router vllm-sr logs envoy vllm-sr logs router -f # 实时跟踪 # 检查状态 vllm-sr vLLM Semantic Router 给出了一个系统性的解决方案: 优点: 架构设计清晰,信号-决策分离,扩展性好 不依赖 GPU,部署门槛低 和 vLLM 生态深度整合 安全能力全面(越狱、PII
vLLM-Omni是什么? vLLM 被设计用于支持基于文本的自回归生成任务的大型语言模型,为了解决多模态、文本生成和视频生成等任务,vLLM社区推出了全新的vLLM-Omni框架,扩展了它对全模态模型推理和服务的支持:全模态:文本 :https://docs.vllm.ai/projects/vllm-omni/en/latest/代码仓库:https://github.com/vllm-project/vllm-omni路演PPT 和vllm-omni(vllm-omni需要依赖vllm):uv pip install vllm==0.12.0 --torch-backend=auto uv pip install vllm-omni 基于上面三种观察,vLLM-Omni的架构设计如下:性能与加速:该框架通过多种优化技术实现高性能:高效的AR支持:利用继承自vLLM的高效KV缓存管理。
前言 本文在对VLLM进行解析时只关注单卡情况,忽略基于ray做分布式推理的所有代码。 0x1. 运行流程梳理 先从使用VLLM调用opt-125M模型进行推理的脚本看起: from vllm import LLM, SamplingParams # Sample prompts. prompts 完整文章清移步知乎,这个是最近有空时逐步走读了下vllm的流程,还不包含paged attention的实现具体解析,后续有空会把这paged attention这一节的 kernel 实现细节补一下
vllm部署示例 from vllm import LLM, SamplingParams # Sample prompts. prompts = [ "Hello, my name is",
1.vLLM介绍 vLLM相比ollama复杂,ollama启动以后,读取模型文件就可以提供服务,但是vllm则只是一个框架,本身不具有启动服务的能力,它需要依赖python来启动服务。 虽然vLLM比较复杂,但是他具有组成集群跑更大模型的能力,所以我这里先用单机版来让搭建对这个vLLM有一个的理解,后期再深入。 conda create --name vllm python=3.12.9 4.切换进入vLLM虚拟Python环境 (base) [root@MiWiFi-RD03-srv ~]# conda activate vllm (vllm) [root@MiWiFi-RD03-srv ~]# 5.下载vLLM 强烈建议采用原生自带高版本的内核,由于我这个机器是复用上次Linux+GPU的机器,所以我又重新编译了gcc (vllm) [root@MiWiFi-RD03-srv ~]# pip install vllm -i https://mirrors.huaweicloud.com/repository/pypi
vllm lora的使用 加载基座大模型 首先需要加载模型Llama 3 8b,并向vLLM表明我们将使用LoRA,同时还需要设置max_lora_rank。 from vllm import LLM, SamplingParams from vllm.lora.request import LoRARequest from huggingface_hub import vllm lora的网络层 以Llama 3 8B的微调模型kaitchup/Meta-Llama-3-8B-oasst-Adapter为例: 网络层 算子名 attention self_attn.q_proj self_attn.k_proj self_attn.v_proj self_attn.o_proj mlp mlp.down_proj mlp.gate_proj mlp.up_proj 从vllm vllm lora实现原理 思想来源 实现思想来自于论文Punica: Multi-Tenant LoRA Serving,该论文主要解决多租户LoRA服务问题,Punica设计原则: 1.GPU很昂贵
安装 vLLM vLLM 是一个高效的大型语言模型推理库,支持快速部署。 vLLM 简介:vLLM GitHub[1] 官方文档:vLLM 文档[2] 推荐使用虚拟环境:为避免包冲突,建议在虚拟环境中安装 vLLM。 启动 vLLM 推理服务 模型下载完成后,可以使用 vLLM 启动推理服务。 调用 vLLM 推理服务 服务启动后,可以通过代码调用 vLLM 提供的 API 进行推理。 参考资料 [1] vLLM GitHub: https://github.com/vllm-project/vllm [2] vLLM 文档: https://docs.vllm.ai/en/latest
—02 — 什么是 vLLM 以及如何认识 ? vLLM 是一款开源推理框架,专注于大语言模型的高效推理与服务,旨在为开发者提供高性能、可扩展的 LLMs 部署解决方案。 import requests def query_vllm(api_url, model_name, prompt): """ Send a prompt to a vLLM API 高并发支持:vLLM 能够处理数百个并发请求,推理速度保持稳定,适合高负载生产环境。 低延迟:通过内存优化和分布式计算,vLLM 的推理延迟显著降低,平均响应时间可控制在 100ms 以内。 —03 — vLLM vs Ollama ,该如何选择 ? 2、对于对推理性能和系统可扩展性有较高要求的场景: 建议选择 vLLM。尤其适用于需要处理高并发请求和大规模推理任务的应用,vLLM 在性能优化方面表现出色。
Mask是注意力计算中的一个控制开关,用于在Softmax归一化之前,有选择地屏蔽掉(遮盖住)某些位置的信息,使其不参与当前步骤的注意力计算。
为了集成到您的系统中,vLLM提供了一个简单的接口,让机器学习工程师通过Python接口进行开发,您可以在不使用复杂包或依赖的情况下将其集成到您的系统中。vLLM的秘密武器是什么? 为了理解vLLM如何实现降低延迟和优化系统总体性能的目标,我们应该了解vLLM的瓶颈以及如何解决这个问题。 vLLM的OpenAI兼容服务器如果你希望快速的使用vLLM启动一个OpenAI兼容的服务器,可以如下执行:命令行安装:pip3 install vllm==0.5.1 -i https://pypi.tuna.tsinghua.edu.cn 如果提供了函数,vLLM会将其添加到服务器使用@app.middleware('http')。如果提供了类,则vLLM会使用app.add_middleware()添加它。 仅用于vLLM的profile_run。
://github.com/vllm-project/vllm 文档:https://vllm.readthedocs.io/en/latest/models/supported_models.html 安装 pip install vllm 检查模型是否被 vLLM 支持,返回成功则是支持的。 from vllm import LLM llm = LLM(model=... 代码地址:https://github.com/vllm-project/vllm/blob/main/vllm/entrypoints/api_server.py python -m vllm.entrypoints.api_server 客户端请求,更多示例:https://github.com/vllm-project/vllm/blob/main/examples/api_client.py curl http://localhost 代码地址:https://github.com/vllm-project/vllm/blob/main/vllm/entrypoints/api_server.py python -m vllm.entrypoints.openai.api_server
本文是 vLLM 系列文章的第二篇,介绍 vLLM 核心技术 PagedAttention 的设计理念与实现机制。 vLLM PagedAttention 论文精读视频可以在这里观看:https://www.bilibili.com/video/BV1GWjjzfE1b 往期文章: vLLM 快速部署指南 1 引言: vLLM 团队将 vLLM 的推理吞吐量与 HuggingFace Transformers(HF) 和 HuggingFace Text Generation Inference(TGI) 进行了对比 这些共享前缀同样可以被 vLLM 缓存并复用。 /2023/06/20/vllm.html
对于 vLLM 这样一个快速发展的开源项目,优秀的 Maintainer 团队至关重要。 技术深度拆解与实现分析 3.1 Maintainer 工作流与工具链 vLLM Maintainer 采用了高效的工作流和工具链,确保项目的顺利维护和发展: 3.2 代码审查流程与最佳实践 vLLM Maintainer 采用了结构化的代码审查流程,确保审查的质量和效率: 3.3 Maintainer 评审清单与代码质量标准 下面是 vLLM Maintainer 使用的评审清单和代码质量标准示例: # vLLM Maintainer 与主流方案深度对比 vLLM 的 Maintainer 实践与其他主流开源项目相比,具有以下特点: 特性 vLLM PyTorch TensorFlow Hugging Face Transformers :vLLM 将建立更加清晰的贡献者成长路径,从新贡献者到核心 Maintainer,每个阶段都有明确的要求和支持 社区治理将更加去中心化:随着社区规模的扩大,vLLM 将采用更加去中心化的治理模式
大家好,我是 Ai 学习的老章 GitHub 发布的 2025 年度开发者趋势报告一文中提到 2025 年最热门的项目分布在 AI 基础设施(vllm、ollama、huggingface/transformers 一方面,像 vllm、ollama、ragflow、llama.cpp 和 huggingface/transformers 这样的项目占据主导地位,这表明贡献者正在投资 AI 的基础层——模型运行时、 vLLM——2025 年增长最快的开源 AI 项目之一。 ,它太大了,足足 22 个 GB 周末刚看到一个新项目:轻量级 vLLM 实现——Nano-vLLM 项目地址:https://github.com/GeeeekExplorer/nano-vllm 关键功能 快速离线推理 - 推理速度与 vLLM 相当 易读的代码库 - 约 1,200 行 Python 代码的简洁实现 ⚡ 优化套件 - 前缀缓存、张量并行、Torch 编译、CUDA 图等 一行命令安装
Quick Start 创建如下代码,命名为 run.py from vllm import LLM, SamplingParams prompts = [ "Have you followed marsggbo 整个推理过程大大致流程如下图所示,即 1 给定一定数量的 prompts(字符串数组) 2. vllm 会使用 Scheduler 模块自动对需要推理句子进行调度 3. 整体核心模块 vLLM 核心模块之间的结构关系。接下来我们从简单的模块(即输入、采样和输出)开始介绍,最后详细介绍 LLM 模块。 3. Sequence 如上图我们可以看到 vLLM 为输入的句子设计了很多子模块,这些模块的用处各不相同,但是有彼此之间有关系,下面分别详细介绍一下。 下面是 vLLm 中 LLMEngine 使用 Sequence 和 SequenceGroup 的场景示例: class LLMEngine: def add_request(
大家好,我是Ai学习的老章 前文我介绍了vLLM v 0.13.0版本更新的内容,然后介绍了部署多模态/全模态大模型的vLLM-Omni简介及安装 vLLM部署模型过程中,里面有上百个参数(可以通过vllm 如果设置为 "vllm",则不加载生成配置,使用 vLLM 默认值。如果设置为文件夹路径,将从该路径加载生成配置。 vLLM 实现(如果存在),如果没有可用的 vLLM 实现,则回退到 Transformers 实现。 "vllm" 将使用 vLLM 模型实现。 "transformers" 将使用 Transformers 模型实现。 "terratorch" 将使用 TerraTorch 模型实现。 重要更新 【教程】DeepSeek-OCR本地部署(上):CUDA 升级12.9,vLLM升级至最新稳定版 DeepSeek-OCR本地部署(下):vLLM离线推理,API重写,支持本地图片、PDF解析