首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏轩辕镜像

    SGLANG Docker容器化部署指南

    本文将详细介绍如何通过Docker容器化方式部署SGLANG,包括环境准备、镜像拉取、容器配置、功能验证及生产环境优化等关键步骤,帮助用户快速搭建稳定可靠的SGLANG服务。 环境准备Docker环境安装部署SGLANG前需确保Docker环境已正确安装。 官方Docker镜像信息如下:镜像名称:lmsysorg/sglang推荐标签:latest(稳定版)标签列表:可通过官方标签页面查看所有可用版本镜像拉取命令根据镜像命名规则,lmsysorg/sglang 使用轩辕镜像加速地址拉取命令如下:#拉取SGLANG镜像,使用推荐的latest标签dockerpulldocker.xuanyuan.me/lmsysorg/sglang:latest#验证镜像拉取结果 /lmsysorg/sglang:v0.1.0容器部署基础部署命令SGLANG容器部署需根据官方文档确认端口映射、环境变量等关键配置。

    59210编辑于 2025-11-08
  • 来自专栏AI前沿技术

    SGLang 中结构化输出策略介绍

    3,Jump-Forward Decoding 结合基于FSM解码和插值解码的优势,SGLang提出了跳跃解码。 3.1,如何压缩FSM节点 在 SGLang 中,压缩有限状态机(Compressed Finite State Machine)实现核心是通过合并连续的单一转换边来简化状态机结构,从而提升解码效率。 举例: 以常见的 LLM 分词器为例,结合 SGLang 中压缩有限状态机的场景,说明如何通过原始分词器进行重新分词: 假设压缩有限状态机中有一条压缩边包含的文本为{"summary": "AI is, 使用原始分词器重新分词的过程如下: 输入整合:将历史生成的文本,假设为{"title": "SGLang"}与当前压缩边文本{"summary": "AI is整合,得到完整上下文字符串:{"title ": "SGLang"}{"summary": "AI is。

    21010编辑于 2026-01-13
  • 来自专栏网络安全技术点滴分享

    ML-SYS 学习宝典:从 RLHF 系统到 SGLang 深入解析

    项目内容涵盖了从基础理论(如强化学习、马尔科夫决策过程)到前沿系统框架(如 RLHF 训练系统、SGLang 推理引擎)的深度解析,并包含了大量实战配置指南和核心代码走读。 可以参考项目中的 Docker 配置指南(如使用 lmsysorg/sglang:latest 或 nvcr.io/nvidia/pytorch 等基础镜像)。 - SGLang:git clone https://github.com/sgl-project/sglang.gitcd sglangpip install -e "pythonall"依赖管理 核心概念:理解 SGLang 中的请求处理流程SGLang 作为高性能推理引擎,其核心是高效处理并发的推理请求。一个请求的生命周期大致如下(简化):# 伪代码,示意 SGLang 内部流程# 1. SGLang 中多模态请求的 Token 扩展与特征注入以 Qwen2.5-VL 为例,展示了 SGLang 如何处理包含图像的请求。

    35510编辑于 2025-12-19
  • 来自专栏AI前沿技术

    SGLang 用基数树复用 KV 缓存

    SGLang使用程序化的语言模型技术,并利用基数树和压缩有限状态机很好的解决了KV缓存复用和结构化输出问题,本文主要围绕KV缓存复用讨论以下问题: 1)语言模型程序的定义和特点 2)结合持续批处理,如何使用基数树复用 如何存储和管理并不是一蹴而就的,vllm实现了基础的共享前缀树的方案,SGLang提出使用基数树同时实现四种对话方式的KV缓存共享方案。 而基数树的实时查询确保每次重组 batch 时,优先选择能复用最多连续缓存的请求; • 避免缓存碎片化:通过基数树的路径管理,KV 缓存始终以连续前缀块的形式被复用,减少碎片化缓存导致的内存浪费; 总结: SGLang

    14410编辑于 2026-01-13
  • 来自专栏深度学习与python

    SGLang 推理引擎的技术要点与部署实践|AICon 北京站前瞻

    采访嘉宾|尹良升,SGLang 核心开发者 编辑|罗燕珊 作为开源社区近年来备受瞩目的推理引擎,SGLang 自发布以来持续迭代优化。 在 DeepSeek R1 发布时,SGLang 便成为其官方推荐的推理引擎之一。 他是 SGLang 最早期的几位核心开发者之一,深度参与了 SGLang 的研发和优化。 尹良升: 我认为 SGLang 最核心的优势在于高性能的实现和易于二次开发的代码。 InfoQ:结合你的体验,能否分享下你认为 SGLang 社区是如何推动技术演进和应用场景落地之间的良性循环? 尹良升:SGLang 的核心是开源,让人人都能参与开发和贡献。

    88410编辑于 2025-06-11
  • 来自专栏AgenticAI

    SGLang:地表最强LLM推理引擎安装经验分享,以及为何频繁掉卡?

    安装 sglang 首先我们使用 conda 建立虚拟环境并激活。 conda create -n llm python=3.10 conda activate llm 2.1 安装 sglang SGLang 是一个用于大型语言模型和视觉语言模型的快速服务框架。 3 运行 SGLang python -m sglang.launch_server --model-path qwen/Qwen2-72B-Instruct-GPTQ-Int8 --port 30000 接下来,我们看看 sglang 的一些参数设置。 --tp 表示张量并行,目前是 4 卡我们设置为 4. 测试指令如下: python3 -m sglang.bench_serving --backend sglang --port 8413 --dataset-name random --num-prompts

    4.7K10编辑于 2025-03-18
  • 来自专栏机器之心

    当开源创新遇上推理革命:SGLang如何炼就DeepSeek最强开源推理引擎?

    这一问题的答案,隐藏在推理引擎 SGLang 的代码仓库中。 但是,SGLang 的征程绝不止步于此。 本文将从核心技术突破、系统级优化到开发者生态,解码 SGLang 独到的进化之路。 三、多模态支持:视觉与语言的协同加速 在多模态应用场景中,SGLang 持续与国内外顶尖的多模态技术团队深度合作,将先进的视觉与语言处理能力无缝集成到 SGLang 中。 GitHub 仓库: https://github.com/sgl-project/sglang Slack 社区:slack.sglang.ai DeepSeek 优化指南: https://docs.sglang.ai

    1.3K10编辑于 2025-03-07
  • 深度解析 SGLang:大模型编程新范式——从 Prompt Engineering 到 Structured Generation 的系统性跃迁

    data = retry_with_stronger_hints(prompt)SGLang(图1b)则将生成过程显式结构化为可执行程序:# SGLang: Structured & Deterministic 1.2 SGLang 的语言设计原则SGLang 并非通用编程语言,而是领域特定语言(DSL),专为 LLM 生成控制而设计。 二、SGLang 运行时架构:约束编译器 + 分层执行引擎SGLang 的卓越表现力源于其三层架构(图2):[User Program]        ↓ (Parse + Semantic Analysis 三、SGLang 的高级编程抽象:构建 LLM 原语SGLang 不止于基础约束,更提供高层抽象,将常见 LLM 任务封装为可组合原语。 在 COCO 数据集上,SGLang 使结构化图像描述的字段准确率提升 31.5%,且无格式错误。四、编译优化:静态分析与约束融合SGLang 编译器不仅是语法转换器,更执行深度优化,提升运行时效率。

    54120编辑于 2026-01-03
  • 来自专栏机器之心

    吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了

    如下图 1 、图 2 表明,与现有系统(即 Guidance 和 vLLM)相比,SGLang 的吞吐量提高了 5 倍。 前端:使用 SGLang 轻松进行 LLM 编程 在前端,该研究提出了 SGLang,一种嵌入在 Python 中的特定于领域的语言,允许表达高级 prompt 技术、控制流、多模态、解码约束和外部交互 SGLang 函数可以通过各种后端运行,例如 OpenAI、Anthropic、Gemini 和本地模型。 图 5. 用 SGLang 实现多维文章评分。 图 5 显示了一个具体示例。 (5) run 使用其参数执行 SGLang 函数。 给定这样一个 SGLang 程序,我们可以通过解释器执行它,也可以将其跟踪为数据流图并使用图执行器运行它。 SGLang 的语法很大程度上受到 Guidance 的启发,并引入了新的原语,还处理程序内并行性和批处理。所有这些新功能都有助于 SGLang 的出色性能。

    76510编辑于 2024-01-23
  • 来自专栏机器学习与统计学

    Xinference 大模型推理框架,离线部署,支持vLLM、SGLang、llama.cpp等引擎

    部署量化大模型 # Python 离线安装库,依赖,依赖,还是 TM 的依赖 # Qwen3-Next,性价比最高的非思考大模型 get 0、Xinference 大模型推理引擎,最火的当属 vLLM 和 SGLang 它们之间也在不断在某些知名模型上的优化你追我赶,我个人是 vLLM 的忠实用户,但是最近在部署某个 Reranker 模型时下游对接出现了一些问题,用 xinference(一个性能强大且功能全面的分布式推理框架,它直接支持了 vllm、sglang

    1.6K10编辑于 2025-10-11
  • 来自专栏机器学习与统计学

    SGLang放大招,DeepSeek V3、R1 部署性能和成本双重突破

    SGLang 的开源实现:性能接近官方数据 LMSYS Org 宣布,SGLang 成功实现了 DeepSeek V3/R1 模型的高效服务,其核心在于利用预填充-解码分离和专家并行技术,在 96 个 这一数据几乎与 DeepSeek 官方博客报告的吞吐量相当,显示出 SGLang 优化的强大潜力。 绿色柱(DeepSeek, Profiled)表示 SGLang 的优化结果,明显优于其他策略。 预填充-解码分离与专家并行:技术核心解析 SGLang 的成功离不开两大关键技术:预填充-解码分离和专家并行。 SGLang 的解决方案是将预填充和解码阶段分离到不同的 GPU 组,并为每个阶段定制并行策略。

    95710编辑于 2025-06-08
  • 来自专栏腾讯开源的专栏

    腾讯云开源DeepSeek量化部署方案:性能最高提升3.9X!

    为了实现这种量化模型的高效推理,我们在SGLang中实现了一种优化的推理方案,并贡献给了开源社区。 TP并行和EP并行的权重划分对比示意图 SGLang中最初针对W4AFP8模型的推理方案是EP并行。 SGLang中W4AFP8量化模块架构图,深色为TP并行需要修改的部分 为此,腾讯云联合小红书Hilab Infra团队,为SGLang提供了完整的 W4AFP8模型TP并行推理实现。 目前相关PR已正式合入 SGLang V0.5.2版本,并吸引更多开发者在此基础上做了进一步优化和拓展。 (详见 https://github.com/sgl-project/sglang/pull/8118) 在SGLang V0.5.2之后的版本用TP并行部署 W4AFP8模型很简单,只需要如下命令:

    84110编辑于 2025-11-20
  • 来自专栏云原生知识宇宙

    在 TKE 上部署 AI 大模型

    Ollama 提供是 Ollama API,部署架构:vLLM 和 SGLang 都提供了兼容 OpenAI 的 API,部署架构:Ollama、vLLM、SGLang 与 OpenWebUI 介绍Ollama 技术选型Ollama、vLLM 还是 SGLang? labels: app: sglang-download-modelspec: template: metadata: name: sglang-download-model SGLang通过 Deployment 部署 SGLang:apiVersion: apps/v1kind: Deploymentmetadata: name: sglang labels: labels: app: sglang spec: containers: - name: sglang image: lmsysorg/sglang

    95201编辑于 2025-02-20
  • 来自专栏机器学习与统计学

    小米又开源了,一个多模态大模型 + 一个生不逢时的推理大模型

    部署推理支持 SGLang 和 vLLM,前者 SGLang 官方已支持,vLLM 尚未合并分支,用起来稍麻烦# Install the latest SGlang from main branch python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang&subdirectory =python" # Launch SGLang Server SGLANG_USE_MODELSCOPE=true python3 -m sglang.launch_server --model-path

    50800编辑于 2025-06-06
  • 从大模型性能优化到DeepSeek部署|得物技术

    比如下面的sglang推理引擎的代码,参考:2sglang 代码三、解决显存碎片问题,大幅提升吞吐—Paged Attention在 Linux 等操作系统上运行的应用程序通常不会出现内存碎片问题,这是因为 下面为SGLang给出的Radix Attention性能对比效果,与当前系统相比,SGLang吞吐提升了5倍以上。 图片来自5 Fast and Expressive LLM Inference with RadixAttention and SGLang如果你也想尝试下Radix Attention,可以直接使用SGLang 图片来自6 vllm Documentation2.SGLang配置多卡推理以为命令为SGLang推理服务如何配置多卡推理。 https://lmsys.org/blog/2024-01-17-sglang/6 vllm Documentation https://docs.vllm.ai/en/latest/7 SGLang

    1.5K10编辑于 2025-02-18
  • 来自专栏机器学习与统计学

    小米又开源了,一个多模态大模型,一个推理大模型

    部署推理支持 SGLang 和 vLLM,前者 SGLang 官方已支持,vLLM 尚未合并分支,用起来稍麻烦 # Install the latest SGlang from main branch python3 -m uv pip install "sglang[all] @ git+https://github.com/sgl-project/sglang.git/@main#egg=sglang &subdirectory=python" # Launch SGLang Server SGLANG_USE_MODELSCOPE=true python3 -m sglang.launch_server

    48510编辑于 2025-06-09
  • 来自专栏Se7en的架构笔记

    Prefix Caching 详解:实现 KV Cache 的跨请求高效复用

    使用方式如下,先安装 sglang 和  sglang-router 包。 uv venv sglang-demo --python 3.12 --seed source sglang-demo/bin/activate uv pip install sglang[all] uv pip install sglang-router 可以使用 sglang_router.launch_server 一起启动 SGLang Router 和多个 worker。 2 --host 0.0.0.0 如果是在多个节点上启动 worker,然后在主节点上启用 SGLang Router,可以使用 sglang_router.launch_router。 Router for Data Parallelism:https://docs.sglang.ai/router/router.html SGLang v0.4: Zero-Overhead Batch

    3.3K10编辑于 2025-06-09
  • 来自专栏新智元

    全球首个,最接近原版DeepSeek开源复现来了!R1四个月狂飙26倍

    与此同时,来自SGLang、英伟达等机构的数十人联合团队,也在DeepSeek上整了个大活。 为了解决这些挑战,团队在SGLang中引入了预填充和解码(PD)分离技术。 如下图所示,SGLang会通过预填充服务器和解码服务器的协同工作,实现两个阶段的交错执行。 SGLang集成了DeepGEMM,用于在张量并行模式下进行MoE计算。 他们比较了以下四种不同的配置: SGLang(采用TP16x6) SGLang(采用PD分离) SGLang(采用PD分离和模拟MTP) DeepSeek的结果 为了适应不同的工作负载需求,团队分别独立地评估了预填充阶段和解码阶段的性能 如下图所示,SGLang的解码内核分析结果与DeepSeek的结果非常接近: 可以看出,SGLang的解码性能在很大程度上与DeepSeek的性能相一致。

    73310编辑于 2025-05-09
  • 来自专栏DeepHub IMBA

    KV Cache管理架构演进:从连续分配到统一混合内存架构

    PagedAttention还打开了前缀缓存的大门:SGLang的RadixAttention正是基于此。 今天vLLM、SGLang、TensorRT-LLM全部以PagedAttention为底层基础。 实践比较:vLLM vs SGLang前缀缓存 两个框架都支持前缀缓存,实现路径不同。 从实际部署看,SGLang的方案在复杂多调用场景(agent、思维树)中缓存命中率更高,vLLM的方案更简洁标准聊天场景下表现良好。 SGLang:CUDA虚拟内存 SGLang则又用了另外一个方法:利用CUDA Virtual Memory API动态重映射设备内存,让KV页在虚拟地址空间中连续、物理上分散。 SGLang的CUDA虚拟内存方案和Jenga的LCM分配器正是针对此类场景设计。 大规模高吞吐量生产:Era 4是重点。

    37711编辑于 2026-03-04
  • 来自专栏spring-ai 系列

    大语言模型推理框架调研

    这使得 SGLang 超越了单纯优化单轮次文本生成的范畴。 SGLang:Clarifai 的一项基准测试(Qwen2-7B, Llama-3.1-8B, Mistral-7B 在 A100 上,输入/输出长度 2048):单请求:SGLang 的 TTFT 最佳 吞吐量 (批大小):SGLang 表现最佳,达到 460 输出 tokens/s。 SGLang:在一些基准测试中(特别是针对 70B 模型和高并发)展现出领先的吞吐量。 SGLang 的实现:SGLang 已经实现了 PD 分离架构,通过在预填充服务器和解码服务器之间交错执行,并结合大规模专家并行(DeepEP),显著提升了吞吐量,例如在其报告的 DeepSeek 推理系统复现中

    3.4K20编辑于 2025-06-03
领券