首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AllTests软件测试

    本地部署AI模型DeepSeek

    DeepSeek的核心产品,是一系列强大的语言模型。 官方网址: https://www.deepseek.com/ 本篇讲解如何快速的在本地部署AI模型DeepSeek。 2、本地部署DeepSeek 1、首先要下载安装Ollama。 Ollama是一个开源的大型语言模型本地部署框架。 特点: 多平台支持,如Windows、macOS、Linux,还支持Docker,方便跨平台部署本地运行,让用户可在本地设备上运行大型语言模型,无需网络连接也能使用部分功能。 官方网址: https://ollama.com/ 快速上手使用语言模型。 它支持多种语言模型运行程序,如Ollama和兼容OpenAI的应用程序编程接口(API),还内置了用于检索增强生成(RAG)的推理引擎,使其成为一个强大的人工智能部署解决方案。

    76810编辑于 2025-02-10
  • 来自专栏.Net Core技术分享

    Ollama本地部署模型总结

    今天计划对之前ollama系列做个回顾,从如何部署到API使用,整理到一篇内容中,提供给大家参考。 ollama run deepseek-r1:1.5b 下载完成后,ollama会为我们运行刚下载的模型。下面是我运行成功的截图: 第三步:使用模型 恭喜你已经在本地成功安装了第一个私有模型。 安装完成后打开,你会看到一个聊天窗口: 使用ollama中的模型 我们在上一篇中在本地安装了ollama和deepseek,现在我们把它集成到刚安装的chatbox中。 和本地模型对话 点击左侧新对话,开启新的对话。 向模型提问试试吧 创建智能体 恭喜你已经完成了ollama和chatbox的集成,现在你的对话数据都保留在本地,绝对的安全和隐私。 在内容生成API中,我们仅传入了prompt,模型仅对我们本地的prompt进行回答,而在生成对话API中,我们还可以传入messages参数,包含我们多轮对话内容,使模型具备记忆功能。

    4.7K11编辑于 2025-03-30
  • 来自专栏微言码道

    本地部署模型的几种方式

    相较于其它一些方式, 有一定的编程或技术上的门槛, Ollama可以说是把本地部署模型这个以前有点技术含量或难度的事情完全傻瓜化了. 就算你是一个编程的门外汉, 都可以轻松的使用Ollama来部署一个本地模型. 我在这里以最新的Llama 3来举例说明如何运行一个本地模型. 如果仅仅是要部署一个本地模型, 没有比Ollama更简单方便的方式了. VLLM Vllm是一个python类库, 在知道与了解Ollama之前, 最开始我都是基于VLLM来部署类似的开源模型. 总结 开源模型, 或者说本地化运行一个开源模型, 现在已经越发的简单与低门槛了. 只要有足够的GPU硬件, 本地部署与运行开源模型非常简单及易于实现. 想部署一个本地模型玩玩? 今天, 私有化本地部署一个模型早已不是什么有门槛或技术含量的工作了, 对于那些追赶AI热潮的人来说, 找到AI对你业务实现的价值可能才是更具挑战的事情.

    8.5K10编辑于 2024-04-23
  • 来自专栏Python与算法之美

    Ollama 本地CPU部署开源模型

    Ollama可以在本地CPU非常方便地部署许多开源的模型。 如 Facebook的llama3, 谷歌的gemma, 微软的phi3,阿里的qwen2 等模型。 完整支持的模型列表可以参考:https://ollama.com/library 它基于llama.cpp实现,本地CPU推理效率非常高(当然如果有GPU的话,推理效率会更高), 还可以兼容 openai ollama run qwen2 #跑qwen2模型,如果本地没有,会先下载 ollama pull llama3 #下载llama3模型本地 ollama list #查看本地有哪些模型可用 ollama rm #删除本地的某个模型 ollama help #获取帮助 ! import OpenAI client = OpenAI( base_url='http://localhost:11434/v1/', api_key='ollama', #实际上本地模型不需要

    3.7K11编辑于 2024-06-26
  • 来自专栏陈冠男的游戏人生

    使用ollama本地部署开源模型

    chatGPT 刚出来没多久的时候,openai 时不时的限制使用频率,当时我想要是能本地部署一个模型,无限制的使用该多好哇。 后来有很多团队/公司陆陆续续在 github 开源了他们自己训练的模型,但是部署使用的操作门槛比较高,曾经试图部署过一个,报了几个错也没时间折腾就放弃了 前几天我发现了一个叫 ollama 的项目,根据介绍 ,一条命令就能跑起来一个模型,因此实际体验了一下,项目地址: https://github.com/ollama/ollama 先说一下使用体验,极其丝滑,完全没有报错,感觉就像是刚开始学 web 安全 ,此时就已经部署结束了 可以在:https://ollama.com/library 找到更多的模型 但是在命令行中直接交互里很多格式解析不出来,看起来怪怪的,可以使用 chatbot-ollama 这个项目部署一个 /openai-translator/openai-translator 直接去 release 下载安装包后运行,在设置中选择本地模型,并选择 API 模型为你已经下载好的本地模型保存即可 使用效果

    3K20编辑于 2024-03-05
  • 来自专栏AI技术应用

    AI模型本地部署

    AI模型本地部署是将大规模人工智能模型(如GPT、LLaMA、DeepSeek等)部署本地服务器或设备上,以满足数据隐私、安全性和性能需求的过程。 以下是AI模型本地部署的关键步骤、技术难点及解决方案。一、本地部署的关键步骤1.需求分析与规划 明确应用场景(如智能客服、文本生成、图像识别等)。评估本地硬件资源(GPU、内存、存储)和预算。 5.模型部署使用推理框架(如ONNX、TensorRT)优化模型推理性能。部署模型本地服务器或边缘设备,提供API接口供调用。6.监控与维护持续监控模型性能和硬件状态。定期更新模型以保持最佳性能。 国产化适配:国产AI算力和模型(如DeepSeek)将加速普及。边缘计算:模型将更多部署到边缘设备,满足实时性需求。 通过以上步骤和解决方案,AI模型本地部署可以更好地满足行业需求,推动AI技术的广泛应用。

    4K10编辑于 2025-03-08
  • 来自专栏开源项目搭建

    简单3步部署本地国产模型DeepSeek模型

    简单3步部署本地国产模型DeepSeek模型DeepSeek是最近非常火的开源模型,国产模型 DeepSeek 凭借其优异的性能和对硬件资源的友好性,受到了众多开发者的关注。 本文将介绍如何通过简单 3 步在本地部署 DeepSeek 模型,让你能够轻松体验这一强大的 AI 工具。 GeForce RTX 4070Ti可以运行模型deepseek-r1的哪个版本的模型? 使用Ollama在本地搭建DeepSeek具有充分利用本地算力、保护数据隐私、便捷更新模型等优点,但同时也存在硬件要求高、技术门槛高、部署过程繁琐等缺点。 用户在选择是否进行本地部署时,应根据自己的实际需求和技术水平进行权衡。写文不易,如果你都看到了这里,请点个赞和在看,分享给更多的朋友;也别忘了关注星哥玩云!

    6.3K33编辑于 2025-02-06
  • 来自专栏全栈开发日记

    本地部署DeepSeek-R1模型

    从安装到API调用全流程指南 想不依赖网络、零门槛运行AI模型?Ollama帮你轻松实现! 本文手把手教你部署DeepSeek模型,并通过本地API实现对话、编程、数据分析,小白也能秒变AI玩家! 一、准备工作:安装Ollama Ollama是一个轻量级工具,支持在本地一键运行模型(如Llama、DeepSeek等),无需复杂配置。 1. 二、一键部署DeepSeek模型 Ollama内置了主流模型库,直接通过命令行拉取即可。 • 回复速度慢:关闭其他占用显存的程序,或尝试更小规模的模型(如deepseek-7b)。 通过Ollama,DeepSeek模型部署和调用变得前所未有的简单!

    2.5K10编辑于 2025-02-10
  • 来自专栏机器学习与统计学

    模型本地部署,vLLM 睡眠模式来了

    (小模型约0.1-0.8秒,模型约3-6秒) • 需要充足的CPU内存来存储模型权重 • 最适合: 具有足够CPU内存的系统,频繁的模型切换 级别2: 丢弃模型权重和KV缓存,仅在CPU中保留缓冲区( vision推理 平均0.81秒 平均0.57秒 快30% 初始加载时间 90.5秒 96.9秒 -7%(预热更长) 洞察: • FP8唤醒操作更快(13-33%更快),因为内存移动更少 • FP8改善模型推理 https://blog.vllm.ai/2025/10/26/sleep-mode.html vLLM官方博客 吃瓜,模型推理引擎,vLLM和SGLang 杠起来了 Xinference 模型推理框架 ,离线部署,支持vLLM、SGLang、llama.cpp等引擎 快手编程模型真实水平,本地部署,实测 智谱GLM-4.5-Air量化模型本地部署,实测 字节跳动开源模型Seed-OSS-36B ,本地部署,性能实测

    86610编辑于 2025-11-20
  • 来自专栏AI技术应用

    AI模型本地部署

    AI模型本地部署,是将原本在云端运行的大型人工智能模型,转移到本地的硬件设备上运行。这种部署方式,在数据隐私、网络延迟、成本控制等方面,都有着重要的意义。 以下是关于AI模型本地部署的一些关键方面。1. 本地部署的优势:数据隐私: 本地部署可以最大限度地保护敏感数据,避免数据在传输和存储过程中泄露的风险。 离线运行: 本地部署使得应用可以在没有网络连接的情况下运行,提高了应用的可用性。2. 本地部署的技术难点:硬件资源限制: 模型通常需要大量的计算资源和内存,如何在有限的硬件资源上运行,是一个挑战。 ONNX Runtime: 跨平台的推理引擎,支持多种模型格式。Ollama,LM Studio: 这些工具均支持不同模型本地部署,并优先使用GPU进行推理。5. 边缘计算: 在靠近数据源的边缘设备上运行模型,减少数据传输和处理延迟。总而言之,AI模型本地部署,是一项具有挑战性但也充满机遇的技术。

    1.8K10编辑于 2025-03-10
  • 来自专栏机器学习与统计学

    量化模型本地部署,效果不打折

    大家好,我是 AI 学习的老章 Unsloth 出圈是 DeepSeek-R1 爆火的时候,它发布了最小 1.58 位量化版本的 R1,把 DeepSeek-R1 这个非常模型(它有 6710 亿个参数 这种方法并非对模型的所有层“一视同仁”地进行压缩。通过研究,Unsloth 发现模型中的某些张量(如 attn_k_b)对量化操作极为敏感。 结论 Unsloth 的动态量化技术证明,通过智能的、非均匀的量化策略,我们可以在大幅压缩模型体积的同时,保持甚至超越 SOTA 模型的性能。 这使得在本地消费级硬件上运行高性能的巨型模型成为可能,为 AI 社区和开发者带来了巨大的价值。 对于追求本地化、低成本部署高性能模型的用户来说,Unsloth 的动态量化模型无疑是当前最值得关注的方案之一。

    52510编辑于 2025-11-29
  • 来自专栏Linux运维技术之路

    Deepseek模型本地化安装部署

    本地部署基于 Ollama 的 DeepSeek 模型,可以按照以下步骤操作。Ollama 是一个用于本地运行大型语言模型(LLM)的工具,支持多种模型,包括 DeepSeek。 一. 运行以下命令安装 Ollama: brew install ollama 或者这下载文件(https://ollama.com/download/Ollama-darwin.zip),本地安装 Linux 下载 DeepSeek 模型 Ollama 支持从 Hugging Face 或其他来源加载模型。以下是下载和加载 DeepSeek 模型的步骤: 1. 确保 Ollama 已安装并运行。 2. 使用以下命令下载 DeepSeek 模型: ollama pull deepseek-r1:1.5b 如果 DeepSeek 不在默认模型列表中,可以手动指定模型文件的路径或 URL。 3. 通过 API 调用 DeepSeek 模型 Ollama 提供了一个本地 API,可以通过 HTTP 请求与模型交互。 启动 API 服务 1.

    1.2K10编辑于 2025-02-06
  • 本地部署DeepSeek R1模型

    1.2 安装cherry studio 前往官网https://cherry-ai.com/download下载对应操作系统的安装包 1.3 下载deepseek R1本地模型 直接前往Ollama官网 老周这里让 DeepSeek 帮我推荐使用哪个参数的模型。 它不仅能调用你本地下载的模型,还可以连接各种云端模型服务,使用起来非常便捷。 1.4 设置Cherry Studio 然后在聊天界面,选择你所要对话的模型,就可以直接对话了。 如果出现对话说明本地部署DeepSeek R1模型成功了。如果出现404啥的说明你没有配置对API地址,检查下面这两个操作是否配置对了。 默认模型选择你下载好的模型~ 我让DeepSeek帮我安排一个行程,推理阶段吃掉我一半的CPU、内存也只省2G左右。

    67510编辑于 2025-11-20
  • 来自专栏机器学习与统计学

    模型本地部署,小号的vLLM来了

    按贡献者数量排名的顶级开源项目 按贡献者数量增长最快的项目 吸引最多首次贡献者的项目 这个推理引擎也是我最喜爱的,本号测试部署的 N 多大模型都是用它来部署模型_本地部署_,vLLM 睡眠模式来了 快手编程模型真实水平,本地部署,实测 智谱 GLM-4.5-Air 量化模型本地部署,实测 字节跳动开源模型 Seed-OSS-36B,本地部署,性能实测 本地部署模型性能测试,DeepSeek-R1 -0528-Qwen-8B 依然是我的不二之选 DeepSeek-R1-0528 蒸馏 Qwen3:8B 模型,双 4090_本地部署_,深得我心 唯一让我不满的是我在内网用 docker 起 vLLM 下载完整模型库 `modelscope download --model Qwen/Qwen3-0.6B 下载单个文件到指定本地文件夹(以下载 README.md 到当前路径下“dir”目录为例) modelscope ,时延更小,吞吐量更大,看起来是很不错的样子 时间关系,我还没有本地参数模型,后续肯定要试一试的。

    73610编辑于 2025-11-20
  • 谷歌Gemma 模型 部署搭建本地详细教程

    特点速度快速:Gemma 使用 TensorFlow Lite 模型,可以快速运行在移动设备上。准确性:Gemma 使用预训练的模型,可以实现准确的物体检测和分类。 谷歌Gemma是一系列轻量级、最先进的开放模型,由Google AI构建并开源。Gemma模型旨在为各种自然语言处理任务提供卓越的性能,同时保持较低的资源需求和部署灵活性。 Gemma模型可以通过以下方式使用:在本地计算机上使用:可以下载Gemma模型的代码和权重,并在本地计算机上运行。 来自Gemma官网:Gemma 模型与 Gemini 共享技术和基础设施组件,Gemini 是我们当今广泛使用的最大、功能最强大的 AI 模型。 具体部署过程接下来详细讲解如何将它部署本地电脑上边下载安装ollama 客户端: 【点击下载】官网LOGO进入之后选择对应的系统下载即可一直下一步默认安装即可(路径尽量不要去动)安装完成之后选择模型如果你是第一次部署

    3.1K10编辑于 2024-04-07
  • 来自专栏机器学习与统计学

    腾讯翻译模型,手机可运行,本地部署

    大家好,我是 Ai 学习的老章 2025 年最后一天,腾讯开源了 HY-MT1.5 翻译模型! 最牛的是,1.8B 的小模型翻译质量居然能逼近 7B 模型,"小钢炮"属性拉满。 输出格式为:<target>str</target> <source>{src_text_with_format}</source> 本地部署 主流推理引擎都支持(TensorRT-LLM、SGLang --dtype bfloat16 \ --served-model-name hunyuan \ 2>&1 | tee log_server.txt 在线体验 - 实测 不想本地部署 推理模型 它最大的价值:量化后的 1.8B 模型可以轻松部署在消费级显卡甚至边缘设备上,实时翻译场景完全 hold 住。

    1.7K10编辑于 2026-01-05
  • 来自专栏机器学习与统计学

    腾讯混元OCR模型本地部署,实测

    大家好,我是章北海 前文我升了 CUDA、部署了 DeepSeek-OCRDeepSeek-OCR 本地部署(上):CUDA 升级 12.9,vLLM 升级至最新稳定版 DeepSeek-OCR 本地部署 (下):vLLM 离线推理,API 重写,支持本地图片、PDF 解析重写的 API 也支持 PaddleOCR-VL本地部署 PaddleOCR,消费级显卡轻松跑,支持本地图片和 PDF 文件 然后腾讯也来了 :模型 OCR 的黄金时代,腾讯开源混元 OCR,文档解析、视觉问答和翻译方面达到 SOTA,文中我提到想等等看新版 vLLM 来了再部署 可是看到 N 多同学部署失败,还有 HunyuanOCR 到底需要多少显存可以跑起来有点疑问 前文我就提到,可能是官方文档写错了现存和磁盘空间,当时写的是需要 80GB 显存 后来修改成了 20GB 官方文档将显存需求从 80GB 改成了 20GB,即便如此也有点离谱,毕竟只是 1B 的模型 安装及模型启动 回到最开始问题,启动模型加上参数 --gpu-memory-utilization 0.66,也就是 16GB 启动模型,依然是 OK 的 而且速度丝毫没有下降

    1.4K10编辑于 2025-12-24
  • 来自专栏AI技术应用

    AI模型本地部署的优化

    AI模型本地部署的优化,旨在提升模型在资源受限的本地环境中的运行效率和性能。以下是一些关键的优化策略。1. 模型压缩与优化:模型量化: 通过降低模型权重和激活值的精度,减少模型大小和计算量。 模型剪枝: 移除模型中不重要的连接或神经元,减少模型复杂度,提高推理速度。 这种方法有助于减小模型大小,并降低计算需求。 推理引擎优化:选择高效的推理引擎: 使用针对本地部署优化的推理引擎,如TensorFlow Lite、ONNX Runtime、TensorRT、OpenVINO等。 推理引擎配置: 根据本地硬件配置和模型特点,调整推理引擎的参数,以达到最佳性能。 例如,调整线程数、缓存大小等。4. 软件环境优化:操作系统优化: 选择适合AI计算的操作系统,并进行必要的优化配置。 通过综合应用这些优化策略,可以显著提升AI模型本地环境中的运行效率和性能,满足各种应用场景的需求。

    1K10编辑于 2025-03-11
  • 来自专栏计算机视觉CV

    【玩转 GPU】本地部署模型--chatGLM(尝鲜篇)

    本文主要介绍ChatGLM-6B 的本地部署,提供更保姆级别的教程,让完全不懂技术的同学,也能在本地部署模型~在19年曾经尝试过使用GPT2进行代码补全,当时就被模型效果惊艳到啊,只是没想到短短3年多 学不完,根本学不完....模型实在太火了,终于还是忍不住对它下手。今天介绍如何在本地部署模型尝鲜,后面有时间会持续出模型技术原理篇。 1 语言模型LLM语言模型(Large Language Model),是一种人工智能模型,旨在理解和生成人类语言。 但是现在有很多开发者,对自研的模型进行开源,更好支持中文,更友好的部署环境。比如ChatGLM-6B。 本文就主要介绍ChatGLM-6B 的本地部署,虽然readme已经介绍很详细,本文会提供更保姆级别的教程,可以让完全不懂技术的同学,也能在本地部署模型~ 3.1 环境确认首先我们要确认自己的机器环境是否能支持

    27.5K289编辑于 2023-06-03
  • 来自专栏AI技术应用

    AI 模型本地部署的调试

    AI 模型本地部署的调试是一个复杂但至关重要的过程,它确保模型本地环境中的正确运行和性能优化。以下是一些关键的调试方面。1. 精度验证: 比较本地运行的模型与云端或参考模型的输出,评估本地模型的精度损失。 使用适当的指标(如准确率、召回率、F1 分数)量化模型性能。 性能调试:推理速度: 测量模型本地设备上的推理速度(如每秒处理的图像数、每秒生成的文本数)。 部署后的调试:API接口调试: 如果模型部署为API服务,则需要使用例如postman,或者curl等工具,进行API接口的调试。监控日志: 部署后,对日志进行监控,查看运行状态,和报错信息。 通过以上调试方法,可以有效地提高AI模型本地部署的成功率,确保模型本地环境中稳定、高效运行。

    86710编辑于 2025-03-11
领券