大家好,我是 Ai 学习的老章 最近在测试 llama.cpp 这个推理引擎的表现,主要是启动 GGUF 格式的量化大模型比较方便 # 内网部署 llama.cpp,运行量化大模型 # 纯离线安装大模型推理引擎 只有在进行 LLM 的部分或全部 CPU 卸载时,你才应该使用 llama.cpp。 也不要使用 Ollama,它只是 llama.cpp 的一个封装,干的就是设置环境变量、蹩脚地计算显存拆分和卸载。 当你试图用 llama.cpp 让 LLMs 彼此对话时,引擎会把这些 GPU 拖慢,让它们一个接一个地排队等待。 / [2] llama.cpp: https://github.com/ggerganov/llama.cpp [3] 并不支持、也大概率永远不会支持张量并行(Tensor Parallelism)
在这篇文章中,我们将介绍如何使用Python中的llama.cpp库在高性能的cpu上运行llm。 大型语言模型(llm)正变得越来越流行,但是它们的运行在计算上是非常消耗资源的。 这要归功于他的llama.cpp库,该库为各种llm提供了高速推理。 原始的llama.cpp库侧重于在shell中本地运行模型。 而最近LangChain的发展使得我可以可以在python中使用llama.cpp。 在这篇文章中,我们将介绍如何在Python中使用llama-cpp-python包使用llama.cpp库。 总结 在这篇文章中,我们介绍了如何在Python中使用llama.cpp库和llama-cpp-python包。这些工具支持基于cpu的llm高性能执行。 Llama.cpp几乎每天都在更新。 在Llama.cpp有一个“convert.py”可以帮你将自己的Pytorch模型转换为ggml格式。
Build llama.cpp locally To get the Code: git clone https://github.com/ggerganov/llama.cpp cd llama.cpp CPU Build Build llama.cpp using CMake: cmake -B build cmake --build build --config Release Notes: For For Intel GPU support, please refer to llama.cpp for SYCL. For detailed info, please refer to llama.cpp for SYCL. This allows you to use the same llama.cpp binary on different machines with different GPUs.
有一个叫 llama.cpp 的项目用原始 C++ 重写了 LLaMa 的推理代码,效果极好,获得了人们的广泛关注。 llama.cpp 至今在 GitHub 上已经收获了 3.8 万个 Star,几乎和 LLaMa 模型本身一样多。 以至于到了 6 月份,llama.cpp 的作者 Georgi Gerganov 干脆开始创业,宣布创立一家新公司 ggml.ai,旨在用纯 C 语言框架降低大模型运行成本。 这为我们提供了一个方便的类 GPT 模型参数数量方程: 在这里,我们将重点讨论在本地运行类 ChatGPT 服务的情况,这就是 llama.cpp 所做的事情,让我们假设 batch size 为 1 由于 llama.cpp 使用目前深度学习推理中较为激进的 int4 格式,因此 KV 缓存的 RAM 需求减少到 1.33GB,模型参数的 VRAM 减少到 16.25GB。
大家好,我是 Ai 学习的老章 # 为何要本地部署大模型 # Linux 安装 Docker 完整教程 # 不要再用 Ollama,不要再用 llama.cpp # 内网部署 llama.cpp,运行量化大模型 我个人是 vLLM 的忠实用户,但是最近在部署某个 Reranker 模型时下游对接出现了一些问题,用 xinference(一个性能强大且功能全面的分布式推理框架,它直接支持了 vllm、sglang、llama.cpp
llama.cpp:AI界的轻量级冠军llama.cpp,这个名字听起来可能有点奇怪,但它在AI界可是个响当当的角色。 llama.cpp说“没问题!”在生产应用中部署LLM,最大的挑战就是它们太“吃资源”了,需要大量的内存和计算资源。但是,llama.cpp可不怕这个。 NVIDIA RTX上的llama.cpp:速度与激情的碰撞NVIDIA已与llama.cpp社区合作,改进和优化其在RTX GPU上的性能。 要使用CUDA后端构建带有NVIDIA GPU优化的llama.cpp库,请访问GitHub上的llama.cpp/docs。 基于llama.cpp的开发者生态系统基于llama.cpp构建了一个庞大的开发者框架和抽象层生态系统,使开发者能够进一步加速他们的应用程序开发过程。
Georgi Gerganov 今年 3 月 Georgi Gerganov 又构建了开源项目 llama.cpp,llama.cpp 让开发者在没有 GPU 的条件下也能运行 Meta 的 LLaMA llama.cpp 让开发者在没有 GPU 的条件下也能运行 LLaMA 模型。项目发布后,很快就有开发者尝试并成功在 MacBook 和树莓派上运行 LLaMA。 llama.cpp 和 whisper.cpp 都使用了 ggml,我们来看一下使用 llama.cpp 和 whisper.cpp 的例子。
高效GPU加速:DeepSeek-R1系列模型在llama.cpp上的生产级部署指南充分发挥RTX30/40系列显卡性能,实现推理质量与吞吐量的最佳平衡本文聚焦于GPU加速场景,提供一套经过生产验证的llama.cpp 虽然llama.cpp以CPU推理著称,但在以下场景中,GPU加速能带来显著收益:降低延迟:RTX4090上8B模型推理速度可达CPU的3–5倍;提升吞吐:支持更高并发请求;释放CPU:将计算密集型任务卸载到 推荐选择展开代码语言:YAMLAI代码解释image:ghcr.io/ggml-org/llama.cpp:server-cuda12-b7751基于CUDA12.1,兼容驱动≥525.85;包含完整CUDA 完整启动配置(DockerCompose示例)展开代码语言:YAMLAI代码解释services:llamacpp:image:ghcr.io/ggml-org/llama.cpp:server-cuda12 3.基础高可用设计(1)健康检查llama.cpp提供/health端点,返回200表示就绪,503表示加载中或异常。Docker/K8s可据此判断实例状态。
llama.cpp server在 2025年12月11日发布的版本中正式引入了 router mode(路由模式),如果你习惯了 Ollama 那种处理多模型的方式,那这次 llama.cpp 的更新基本就是对标这个功能去的 路由模式的核心机制 简单来说,router mode 就是一个内嵌在 llama.cpp 里的模型管理器。 以前跑 server,启动时需要指定一个模型,服务就跟这个模型绑定了。要想换模型? 启动配置与自动发现 启用方式很简单,启动 server 时不要指定具体模型即可: llama-server 服务启动后会自动扫描默认缓存路径(LLAMA_CACHE 或 ~/.cache/llama.cpp 总结 Router mode 看似只是加了个多模型支持,实则是把 llama.cpp 从一个单纯的“推理工具”升级成了一个更成熟的“推理服务框架”。
大家好,我是 Ai 学习的老章 继续介绍大模型推理引擎+Llama.cpp,前文我写了# 内网部署 llama.cpp,运行量化大模型,详细介绍了 llama.cpp 这个推理引擎,内网离线 cmake 编译安装、开启 GPU 加速、Llama.cpp 的使用及核心参数深度解析等。 本文我们用个更省事儿的内网离线部署方式——Docker,然后用其部署量化大模型,其中踩坑若干,才有如此精炼、极简教程 1、联网环境拉取 llama.cpp 镜像并保存 选择镜像最好是官方,比如 llama.cpp 提供的有不同版本,不同用途的镜像 我选择的是 ghcr.io/ggml-org/llama.cpp:server-cuda https://github.com/ggml-org/llama.cpp/ /dir 再传入内网: llama.cpp 服务需要模型文件才能运行,在你的 Linux 服务器上创建一个目录,用来存放 GGUF 格式的模型文件。
本地部署 llama.cpp 是目前跑 GGUF 模型最成熟的方案。 Qwen3.5 本身就是混合架构(Gated Delta Networks + MoE),llama.cpp 已经做了支持。 1. # 编译(有 GPU 用 -DGGML_CUDA=ON,Mac 用 -DGGML_METAL=ON,纯 CPU 用 -DGGML_CUDA=OFF) cmake llama.cpp -B llama.cpp 场景 推荐方案 硬件要求 Mac 用户尝鲜 llama.cpp + GGUF(2-bit 或 3-bit) 128-192GB 统一内存 Mac 高配用户 llama.cpp + MXFP4 256GB 纯 CPU llama.cpp(去掉 GPU 参数) 256GB+ RAM,速度较慢 最后 能在 MacBook 上跑一个和 GPT-5.2 正面对抗的模型,放在两年前简直不敢想。
1.2.Llama.cpp指南1.2.1llama.cpp安装在Github可获取最新的llama.cpp。你也可以按照下面的构建说明操作。 /llama.cpp/llama-cli\-hfunsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL\--ctx-size16384\--temp0.6\--top-p0.95 /llama.cpp/llama-cli\-hfunsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL\--ctx-size16384\--temp1.0\--top-p0.95 /llama.cpp/llama-cli\-hfunsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL\--ctx-size16384\--temp0.7\--top-p0.8\ /llama.cpp/llama-cli\-hfunsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL\--ctx-size16384\--temp1.0\--top-p0.95
可在 macOS 和 Windows 上使用 Ollama 的新动作:大模型联网搜索 API、MCP 客户端集成 Ollama 可以启动云端大模型了,免费 Ollama 背后执行推理的核心技术其实是由 llama.cpp 承担的,GGUF 模型格式也是由 llama.cpp 的作者所开发。 现在 llama.cpp 迎来重大更新,它也有了自己的 Web UI,我测试了安装部署和自行打包,很多地方确实比 Ollama 还有方便好用。 官方介绍,优势如下: 完全免费、开源且由社区驱动 在所有硬件上表现出色 高级上下文和前缀缓存 并行和远程用户支持 极其轻量级且内存高效 充满活力且富有创造力的社区 100% 隐私 使用之前需要先安装 llama.cpp server 我还是喜欢命令行直接安装 ## Winget (Windows) winget install llama.cpp ## Homebrew (Mac and Linux) brew
直接使用 ggerganov/ggml[8] 会比较麻烦,不过 ggerganov/llama.cpp[9] 做了完善的封装,所以我们可以从 llama.cpp 这个项目入手。 FROM python:3.11.4-slim-bullseye as base COPY --from=code /app/llama.cpp /app/llama.cpp WORKDIR /app / /app/llama.cpp/ WORKDIR /app/llama.cpp/ 在上面的 Dockerfile 中,我们做了几件事: •将 llama.cpp 将最近发布的代码,存储到一个共享的镜像中 •使用 Python 官方镜像[11],安装开发依赖,接着构建 llama.cpp 项目的二进制文件,用于后续转换模型和调用模型。 : https://github.com/ggerganov/llama.cpp [10] soulteary/docker-llama2-chat/llama.cpp/Dockerfile.converter
本文还将 PowerInfer 与 llama.cpp 进行了比较,llama.cpp 是最先进的本地 LLM 推理框架。为了便于进行比较,该研究还扩展了 llama.cpp 以支持 OPT 模型。 该研究首先比较了 PowerInfer 和 llama.cpp 的端到端推理性能,批大小为 1。 平均而言,PowerInfer 实现了 8.32 tokens/s 的生成速度,最高可达 16.06 tokens/s, 显着优于 llama.cpp,比 llama.cpp 提高了 7.23 倍,比 在此阶段,CPU 和 GPU 上都会激活少量神经元,与 llama.cpp 相比,减少了不必要的计算。 图 12 显示了 PowerInfer 和 llama.cpp 的 CPU 和 GPU 之间的神经元负载分布。
极简部署:复制粘贴就能跑 方案一:llama.cpp 直接起飞(推荐) 以 Qwen3.5-35B-A3B 为例,这是 24GB 显卡/内存用户的最佳选择: 1. cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggml-org/llama.cpp cmake llama.cpp - B llama.cpp/build \ -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON cmake --build llama.cpp/build --config Release /bin/llama-* llama.cpp 2. /llama.cpp/llama-server \ --model unsloth/Qwen3.5-397B-A17B-GGUF/MXFP4_MOE/Qwen3.5-397B-A17B-MXFP4_
Georgi Gerganov,今年三月曾开源了llama.cpp项目,GitHub上已破三万星标,要知道Stable Diffusion也不过8.8k。 的LLaMA模型,即便是在树莓派、MacBook上运行大模型也通通不在话下~ △在 M2 Max 上以 40 tok/s 的速度运行 7B LLaMA 甚至还成功吸引了小扎的注意:Meta也在运行llama.cpp (狗头) llama.cpp作者创业 ggml,是一个纯C语言编写的张量库,可帮助开发者在消费级硬件上运行大模型,GitHub星标数达到4.4k。 大哥自己的两个上万星标的项目llama.cpp和whisper.cpp都使用了它。 至于llama.cpp也是他一晚上Hacking出来的。 除此之外,他还有一些有意思的项目。 比如检查键盘是否可以通过麦克风窃听、猜Hacker News的标题,Wordle克隆版等等。
`[1]:https://huggingface.co/mistralai/Magistral-Small-2506_gguf[2] `lmstudio`(llama.cpp, MLX)[3]:https ://lmstudio.ai/models/mistralai/magistral-small[4] `ollama` (llama.cpp)[5]: https://ollama.com/library /magistral[6] `unsloth` (llama.cpp)[7]: https://huggingface.co/unsloth/Magistral-Small-2506-GGUF[8] Magistral 371 张速查表,涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等 参考资料 [1] llama.cpp: https://github.com/ggml-org/llama.cpp Magistral-Small-2506_gguf: https://huggingface.co/mistralai/Magistral-Small-2506_gguf [3] lmstudio(llama.cpp
这些都得益于一个名为 llama.cpp 的新项目,该项目在 GitHub 上线三天,狂揽 4.6k star。 llama.cpp 让开发者在没有 GPU 的条件下也能运行 LLaMA 模型。 另一位开发者分享了借助 llama.cpp 在 M1 Mac 上运行 LLaMA 模型的方法。 以上是 3 个在普通硬件设备上成功运行 LLaMA 模型的例子,几位开发者都是借助 llama.cpp 实现的,可见 llama.cpp 项目的实用与强大。 我们来具体看一下 llama.cpp 的使用方法。
准备运行环境 git 用于从cnb.cool下载大模型文件 docker 用于免编译运行玄武实验室修改版llama.cpp apt install git git-lfs wget -O- https: //get.docker.com | sh 启动测试环境 脚本使用 cnb.cool 提供的DeepSeek-R1-Q8_0模型文件及玄武实验室魔改版llama.cpp来加速下载和推理。 脚本中-t 192和-tb 384参数分别指定生成和预填充时的核心数量,一般情况下生成使用超线程是负优化,预填充使用超线程可以提高速度,参考文章 https://github.com/ggml-org/llama.cpp dev-env:latest xllama docker run -it --rm --net host -v /opt/DeepSeek-R1-Q8_0:/opt xllama \ /app/llama.cpp .gguf \ -t 192 -tb 384 \ -c 16384 -np 1 \ --jinja --chat-template-file /app/llama.cpp