搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器学习与统计学
纯离线安装大模型推理引擎，部署量化大模型
大家好，我是 Ai 学习的老章继续介绍大模型推理引擎+Llama.cpp，前文我写了# 内网部署 llama.cpp，运行量化大模型，详细介绍了 llama.cpp 这个推理引擎，内网离线 cmake 本文我们用个更省事儿的内网离线部署方式——Docker，然后用其部署量化大模型，其中踩坑若干，才有如此精炼、极简教程 1、联网环境拉取 llama.cpp 镜像并保存选择镜像最好是官方，比如 llama.cpp server-cuda https://github.com/ggml-org/llama.cpp/blob/master/docs/docker.md 市面上有很多个人打包的镜像，大多都是阉割版费老大劲搞进去，发现大模型无法加载 /dir 再传入内网： llama.cpp 服务需要模型文件才能运行，在你的 Linux 服务器上创建一个目录，用来存放 GGUF 格式的模型文件。 5、启动大模型 docker run --rm --runtime nvidia -e TZAsia/Shanghai --gpus "device=2" -v /opt/data/ai/GGUF:/models
1.2K10编辑于 2025-10-11
来自专栏开源项目搭建
简单3步部署本地国产大模型DeepSeek大模型
简单3步部署本地国产大模型DeepSeek大模型DeepSeek是最近非常火的开源大模型，国产大模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性，受到了众多开发者的关注。本文将介绍如何通过简单 3 步在本地部署 DeepSeek 大模型，让你能够轻松体验这一强大的 AI 工具。 GeForce RTX 4070Ti可以运行大模型deepseek-r1的哪个版本的大模型？提供了类似OpenAI的API接口和聊天界面,可以非常方便地部署最新版本的GPT模型并通过接口使用。支持热加载模型文件,无需重新启动即可切换不同的模型。理论上就安装完成了，可以只在命令行中使用大模型了。修改路径文件保存路径可以不用改，如果C盘空间不够用，建议修改。
6.3K33编辑于 2025-02-06
来自专栏AllTests软件测试
本地部署AI大模型DeepSeek
DeepSeek是一家专注于人工智能技术的公司（中国杭州深度求索）及其推出的大语言模型的名称。 DeepSeek的核心产品，是一系列强大的大语言模型。官方网址： https://www.deepseek.com/ 本篇讲解如何快速的在本地部署AI大模型DeepSeek。 2、本地部署DeepSeek 1、首先要下载安装Ollama。 Ollama是一个开源的大型语言模型本地部署框架。特点：多平台支持，如Windows、macOS、Linux，还支持Docker，方便跨平台部署。它支持多种大语言模型运行程序，如Ollama和兼容OpenAI的应用程序编程接口（API），还内置了用于检索增强生成（RAG）的推理引擎，使其成为一个强大的人工智能部署解决方案。
76610编辑于 2025-02-10
来自专栏小陈运维
使用Ollama部署deepseek大模型
使用Ollama部署deepseek大模型前置条件使用英伟达显卡下载cuda驱动 https://developer.nvidia.com/cuda-downloads Ollama Ollama 的安装方式去安装若你的显卡是在Linux上面可以使用如下命令安装 curl -fsSL https://ollama.com/install.sh | sh 当然Ollama不只是可以启动deepseek模型，也可以启动他的模型 https://ollama.com/search # 模型的安装命令 # 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1G ollama run deepseek-r1
2.7K20编辑于 2025-02-04
来自专栏小陈运维
使用Ollama部署deepseek大模型
使用Ollama部署deepseek大模型前置条件使用英伟达显卡下载cuda驱动https://developer.nvidia.com/cuda-downloadsOllamaOllama 官方版: 的安装方式去安装若你的显卡是在Linux上面可以使用如下命令安装curl -fsSL https://ollama.com/install.sh | sh当然Ollama不只是可以启动deepseek模型，也可以启动他的模型https://ollama.com/search# 模型的安装命令# 1.5B Qwen DeepSeek R1 # 所需空间大约 1.1Gollama run deepseek-r1
3.4K12编辑于 2025-01-26
来自专栏数据挖掘
大模型高效下载部署方式
下载模型sh hfd.sh gpt2 --tool aria2c -x 44.下载数据集sh hfd.sh wikitext --dataset --tool aria2c -x 4 二、国内魔塔社区下载下面以 cogvlm2-llama3-chinese-chat-19B 为例子SDK下载#模型下载from modelscope import snapshot_downloadmodel_dir = snapshot_download
66610编辑于 2024-07-15
来自专栏.Net Core技术分享
Ollama本地部署大模型总结
今天计划对之前ollama系列做个回顾，从如何部署到API使用，整理到一篇内容中，提供给大家参考。 ollama run deepseek-r1:1.5b 下载完成后，ollama会为我们运行刚下载的大模型。下面是我运行成功的截图：第三步：使用大模型恭喜你已经在本地成功安装了第一个私有大模型。 Token：字符块，是大模型的最小输出单位，同时也是大模型的计费单位。举个例子，对于天空为什么是蓝色的这句话，大模型会进行拆分天空/为什么/是/蓝色/的，每一段就是一个token（实际情况会比这个例子复杂）内容生成（/api/generate）让大模型帮我们生成指定的内容在内容生成API中，我们仅传入了prompt，大模型仅对我们本地的prompt进行回答，而在生成对话API中，我们还可以传入messages参数，包含我们多轮对话内容，使大模型具备记忆功能。
4.7K11编辑于 2025-03-30
来自专栏微言码道
本地部署大模型的几种方式
这之中当然有诸如GhatGPT, Gemini这样的私有化大模型, 更吸引人关注的可能是开源的可私有化部署的一些大模型. 比如Meta前两天开放的Lamma 3, Google的Gemma开源模型, 国内也有Qwen以及YI等. 无论私有的大模型, 还是开源的可私有化部署的大模型, 各有优缺点. 相对而言, 一些开源的可私有化部署的大模型, 可能更令人关注. 因为只要有足够的硬件资源, 你就能私有化部署这些大模型. 今天我就介绍几种常见的, 方便的私有化大模型的方式, 这些方式都是开源或免费的. 私有化部署方式 Ollama 要说私有化部署大模型最方便的方式, 我认为非Ollama莫属了. 总结开源大模型, 或者说本地化运行一个开源大模型, 现在已经越发的简单与低门槛了. 只要有足够的GPU硬件, 本地化部署与运行开源大模型非常简单及易于实现. 想部署一个本地大模型玩玩?
8.5K10编辑于 2024-04-23
来自专栏陈冠男的游戏人生
使用ollama本地部署开源大模型
chatGPT 刚出来没多久的时候，openai 时不时的限制使用频率，当时我想要是能本地部署一个大模型，无限制的使用该多好哇。后来有很多团队/公司陆陆续续在 github 开源了他们自己训练的大模型，但是部署使用的操作门槛比较高，曾经试图部署过一个，报了几个错也没时间折腾就放弃了前几天我发现了一个叫 ollama 的项目，根据介绍，一条命令就能跑起来一个大模型，因此实际体验了一下，项目地址： https://github.com/ollama/ollama 先说一下使用体验，极其丝滑，完全没有报错，感觉就像是刚开始学 web 安全，此时就已经部署结束了可以在：https://ollama.com/library 找到更多的模型但是在命令行中直接交互里很多格式解析不出来，看起来怪怪的，可以使用 chatbot-ollama 这个项目部署一个 webUI，这样就可以在聊天框里面调用模型对话了，项目地址： https://github.com/ivanfioravanti/chatbot-ollama 这个项目部署起来也很简单，只要电脑上装有
3K20编辑于 2024-03-05
来自专栏GiantPandaCV
大模型部署框架 FastLLM 简要解析
前言本文主要是对FastLLM做了一个简要介绍，展示了一下FastLLM的部署效果。 atoi(this->weight.dicts["gmask_token_id"].c_str()) : 130001; #ifdef USE_CUDA // 清理 CUDA 的大缓冲区要在FastLLM中自定义一个模型，需要实现的核心部分就是这个模型文件了，从目前FastLLM提供的组件来看，基于Transformer架构的开源大模型支持的难度和工作量会比较小，而对于新的架构比如RWKV 比较期待FastLLM推出ONNX的支持，这样就可以更方便的和各种类型的大模型对接起来。 0x4. 总结本文主要是对FastLLM做了一个简要介绍，展示了一下FastLLM的部署效果。
1.3K20编辑于 2023-08-22
来自专栏Java技术进阶
基于LMDeploy部署大模型和量化
背景大模型具有庞大的参数量，内存开销大，7B模型仅权重就需要14+G内存，采用自回归生成token，需要缓存Attention 的k/v带来巨大的内存开销；动态shape，请求参数不固定，Token逐个生成，且数量不定，因此在部署上都存在一些挑战。 LMDeploy介绍 LMDeploy 是LLM在英伟达设备上部署的全流程解决方案。包括模型轻量化、推理和服务。接下来，我们看一下lmdeploy提供的部署功能。 2.1 模型转换使用 TurboMind 推理模型需要先将模型转化为 TurboMind 的格式，目前支持在线转换和离线转换两种形式。我想直接在自己的 Python 项目中使用大模型功能。推荐使用 TurboMind推理 + Python（2.5）。我想在自己的其他非 Python 项目中使用大模型功能。
2.5K00编辑于 2024-03-01
来自专栏Python与算法之美
Ollama 本地CPU部署开源大模型
Ollama可以在本地CPU非常方便地部署许多开源的大模型。如 Facebook的llama3, 谷歌的gemma, 微软的phi3，阿里的qwen2 等模型。 ollama run qwen2 #跑qwen2模型，如果本地没有，会先下载 ollama pull llama3 #下载llama3模型到本地 ollama list #查看本地有哪些模型可用 ollama rm #删除本地的某个模型 ollama help #获取帮助 ! 二，命令行交互可以在命令行中用 ollama run qwen2 运行一个模型，然后在命令行中和它对话。下面的gif动画没有做任何加速。这个回复速度还是非常的感人的~ 三，Python接口交互在命令行运行诸如 ollama run qwen2，实际上就会在后台起了一个qwen2的模型服务。
3.7K11编辑于 2024-06-26
来自专栏云原生知识宇宙
在 TKE 上部署 AI 大模型
概述本文介绍如何在 TKE 上部署 AI 大模型，以 DeepSeek-R1 为例，使用 Ollama、vLLM 或 SGLang 运行大模型并暴露 API，然后使用 OpenWebUI 提供交互界面。是一个运行大模型的工具，可以看成是大模型领域的 Docker，可以下载所需的大模型并暴露 Ollama API，极大的简化了大模型的部署。 vLLM 的特点：推理性能更好，也更节约资源，适合部署到服务器供多人使用，还支持多机多卡分布式部署，上限更高，但能适配的 GPU 硬件比 Ollama 少，且需要根据不同 GPU 和大模型来调整 vllm 选型建议：如果有一定的技术能力且愿意折腾，能用 vLLM 或 SGLang 成功跑起来更推荐用 vLLM 和 SGLang 将大模型部署到 Kubernetes 中，否则就用 Ollama ，两种方式在本文中都有相应的部署示例 AI 大模型数据如何存储？
1.1K01编辑于 2025-02-20
来自专栏素质云笔记
大模型时代的模型运维与部署：LLMops
这意味着 LLMOps 是一组工具和最佳实践，用于管理 LLM 支持的应用程序的生命周期，包括开发、部署和维护。 LLM（大型语言模型）是可以生成人类语言输出的深度学习模型（因此称为语言模型）。 2 LLMOps实现步骤几个LLMops的步骤：基础模型的选择迭代和提示Prompt管理测试部署监控持续改进和微调 2.1 数据管理 2.1.1 数据清洗和预处理技术原始数据可能存在噪声和结构混乱测试和训练数据分布差异大：实际使用的数据分布总是不同于训练数据的分布。难以用一个核心指标去衡量：指标不那么直接，可能无法捕捉模型的不同行为。语言模型需要对行为和定性输出测量有更多样化的理解。 2.5 部署部署LLM（语言模型）API可能很简单，但是如果API调用背后有很多逻辑，则会变得更加复杂。提高LLM输出质量的技术包括自我评价、采样多个输出和集成技术。 ---- 3 参考文献 LLMOps（Large Language Model Operations）简介了解一下新领域 LLMOps: 大模型运维 LLM训练营课程笔记之 LLMOps: Deployment
7.5K21编辑于 2023-07-09
来自专栏AI智韵
【大模型部署实战】VLLM+OpenWebUI实现DeepSeek模型部署，文末有福利
摘要 vLLM（Very Large Language Model Serving）是由加州大学伯克利分校团队开发的高性能、低延迟大语言模型（LLM）推理和服务框架。该框架支持连续批处理、动态显存分配和多GPU并行推理，能够高效处理8k+长上下文请求，并兼容OpenAI API接口，开发者可快速部署Hugging Face模型。通过集成FP8、AWQ等量化技术，vLLM在保证推理精度的同时大幅降低资源消耗，目前已成为企业级AI部署（如DeepSeek-R1 671B模型分布式集群）的首选方案。多 LoRA 微调支持同时部署基础模型的多个微调版本，提升资源利用率7,9。 VLLM部署有两种部署方法，第一种使用vllm serve，我们使用1.5B的模型举例，执行命令： vllm serve deepseek/DeepSeek-R1-Distill-Qwen-1.5B
2.5K11编辑于 2025-03-17
来自专栏AI技术应用
AI大模型本地化部署
AI大模型本地化部署是将大规模人工智能模型（如GPT、LLaMA、DeepSeek等）部署到本地服务器或设备上，以满足数据隐私、安全性和性能需求的过程。以下是AI大模型本地化部署的关键步骤、技术难点及解决方案。一、本地化部署的关键步骤1.需求分析与规划明确应用场景（如智能客服、文本生成、图像识别等）。评估本地硬件资源（GPU、内存、存储）和预算。二、技术难点及解决方案1.计算资源需求高难点：大模型需要高性能GPU和大量内存。解决方案：使用模型压缩技术（如量化、剪枝）和分布式计算。2.模型优化与效率难点：大模型推理速度慢，资源利用率低。国产化适配：国产AI算力和模型（如DeepSeek）将加速普及。边缘计算：大模型将更多部署到边缘设备，满足实时性需求。通过以上步骤和解决方案，AI大模型本地化部署可以更好地满足行业需求，推动AI技术的广泛应用。
4K10编辑于 2025-03-08
大模型私有化部署工具比较
LocalAILocalAI是一种专门为本地部署设计的工具，它支持多种AI模型和硬件环境。主要优点包括：灵活性：LocalAI支持多种操作系统和硬件，使得用户可以在不同的环境中部署模型。然而，LocalAI也有一些缺点：资源需求：为了在本地运行大模型，需要较高的计算能力，这可能导致较大的初期投资。技术支持有限：相对于成熟的云服务平台，LocalAI的用户社区和技术支持可能不够健全。更新频率：更新和迭代速度可能无法与市场上快速发展的AI模型需求保持同步。目前遇到几次gpu显存不释放问题。背景：部署了rerank模型，使用vllm推理引擎。如果请求量过大，会导致gpu显存占用过大，xinf好像会重新调用大模型，但是之后不再继续使用gpu, 重新launch模型不管用。需要整个重启xinf。 OLLAMAOLLAMA是一个比较新的本地部署工具，它专注于提供高效的大模型本地管理解决方案。OLLAMA的主要优点是：模型管理：强大的模型管理功能，支持多版本控制和自动更新。
2.1K10编辑于 2024-10-30
来自专栏机器学习与统计学
大模型本地部署，vLLM 睡眠模式来了
（小模型约0.1-0.8秒，大模型约3-6秒） • 需要充足的CPU内存来存储模型权重 • 最适合：具有足够CPU内存的系统，频繁的模型切换级别2：丢弃模型权重和KV缓存，仅在CPU中保留缓冲区（ vision推理平均0.81秒平均0.57秒快30% 初始加载时间 90.5秒 96.9秒 -7%（预热更长）洞察： • FP8唤醒操作更快（13-33%更快），因为内存移动更少 • FP8改善大模型推理 https://blog.vllm.ai/2025/10/26/sleep-mode.html vLLM官方博客吃瓜，大模型推理引擎，vLLM和SGLang 杠起来了 Xinference 大模型推理框架，离线部署，支持vLLM、SGLang、llama.cpp等引擎快手编程大模型真实水平，本地部署，实测智谱GLM-4.5-Air量化大模型，本地部署，实测字节跳动开源大模型Seed-OSS-36B ，本地部署，性能实测
85910编辑于 2025-11-20
Prefill Decode分离部署大模型（dynamo框架）
benchmark测试参考：https://github.com/ai-dynamo/dynamo NVIDIA Dynamo 是一个高吞吐量、低延迟的推理框架，旨在为多节点分布式环境中的生成式 AI 和推理模型提供服务为什么要PD分离 LLM（大语言模型）部署中采用Prefill（预填充）与Decode（解码）分离的核心原因在于两者在计算和通信特征上的显著差异，这种差异导致统一部署时难以高效利用资源并满足性能目标。若统一部署，两者对硬件资源的需求会产生冲突，导致资源利用率低下。资源优化与弹性扩展分离部署允许针对不同阶段配置差异化的硬件资源。例如，Prefill可部署在高算力GPU集群上加速计算，Decode则使用大显存GPU以降低内存压力。若合并部署，两者的优化目标可能导致调度策略互相干扰，分离后可分别针对阶段特性设计最优方案。 4.
20410编辑于 2026-03-25
来自专栏AI技术应用
AI大模型的本地化部署
AI大模型的本地化部署，是将原本在云端运行的大型人工智能模型，转移到本地的硬件设备上运行。这种部署方式，在数据隐私、网络延迟、成本控制等方面，都有着重要的意义。以下是关于AI大模型本地化部署的一些关键方面。1. 本地化部署的优势：数据隐私：本地部署可以最大限度地保护敏感数据，避免数据在传输和存储过程中泄露的风险。离线运行：本地部署使得应用可以在没有网络连接的情况下运行，提高了应用的可用性。2. 本地化部署的技术难点：硬件资源限制：大模型通常需要大量的计算资源和内存，如何在有限的硬件资源上运行，是一个挑战。 ONNX Runtime：跨平台的推理引擎，支持多种模型格式。Ollama，LM Studio：这些工具均支持不同大模型的本地部署，并优先使用GPU进行推理。5. 边缘计算：在靠近数据源的边缘设备上运行模型，减少数据传输和处理延迟。总而言之，AI大模型的本地化部署，是一项具有挑战性但也充满机遇的技术。
1.8K10编辑于 2025-03-10

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

纯离线安装大模型推理引擎，部署量化大模型

简单3步部署本地国产大模型DeepSeek大模型

本地部署AI大模型DeepSeek

使用Ollama部署deepseek大模型

使用Ollama部署deepseek大模型

大模型高效下载部署方式

Ollama本地部署大模型总结

本地部署大模型的几种方式

使用ollama本地部署开源大模型

大模型部署框架 FastLLM 简要解析

基于LMDeploy部署大模型和量化

Ollama 本地CPU部署开源大模型

在 TKE 上部署 AI 大模型

大模型时代的模型运维与部署：LLMops

【大模型部署实战】VLLM+OpenWebUI实现DeepSeek模型部署，文末有福利

AI大模型本地化部署

大模型私有化部署工具比较

大模型本地部署，vLLM 睡眠模式来了

Prefill Decode分离部署大模型（dynamo框架）

AI大模型的本地化部署

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐