搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏人工智能
vLLM部署Qwen3:6B模型启动失败
忘记安装gcc g++ python-dev等依赖库，执行下面命令安装相应依赖库后解决
49111编辑于 2026-01-13
来自专栏机器学习与统计学
大模型写高考作文，状元是DeepSeek，榜眼是Qwen3，探花是Gemini
DeepSeek-R1、Kimi、Qwen-3-235B-A22B、豆包、Claude-3.7-sonnet、GPT-4.1、Gemini 2.5 Pro共同作答
51910编辑于 2025-06-08
来自专栏福大大架构师每日一题
ollama v0.12.1 更新详解：新增 Qwen3 Embedding、云模型支持与多项功能修复
本次更新不仅带来了全新的 Qwen3 Embedding 模型，还在工具调用、云模型交互、Linux 平台登录等方面进行了优化和修复，是一次功能与稳定性同步提升的重要版本。二、核心更新内容 1. 新增模型 • Qwen3 Embedding 高性能的开源向量嵌入模型，由 Qwen 团队提供，适用于搜索、推荐、语义匹配等任务。 2. • 模型使用者：Qwen3 Embedding 将提升搜索与语义任务的精度，Harmony 工具支持可以在复杂任务中带来更高的可扩展性。上线 Qwen3 Embedding 与云模型，让硬件门槛大幅降低； 2. Harmony 工具支持与思维链功能完善； 3.
88110编辑于 2025-12-18
来自专栏编程语言的世界
vLLM 部署 Qwen3-VL-32B-Thinking 模型 reasoning_content 为空问题解决记录
作为参数值--reasoning-parser qwen3第二步：排查推理内容分离问题通过测试发现：✅ 模型正常生成推理内容✅ <think>... reasoning_content 字段仍为 null第三步：发现根本原因关键发现：Qwen3-VL-32B-Thinking 模型的输出格式实际上遵循 DeepSeek-R1 格式，而不是标准的 Qwen3 正如文档所述：Qwen3-Thinking-2507 不输出 <think> 起始标记，导致 Qwen3 推理解析器无法解析它，因为它符合 DeepSeek-R1 格式。推理功能特性默认启用：Qwen3 系列模型的推理功能默认处于启用状态禁用方法：如需禁用，在 API 请求中传入 enable_thinking=False格式兼容性：Qwen3-VL-32B-Thinking 使用 DeepSeek-R1 格式而非标准 Qwen3 格式3.
5.1K40编辑于 2025-10-28
来自专栏福大大架构师每日一题
DeepSeek-V3、Qwen3 齐登场，AI 领域再迎巨变！
不仅新增了 Meta 的 Llama 4、微软的 Phi4-Multimodal、深度求索的 DeepSeek-V3 以及 Qwen3 四大重量级模型，还优化了多项功能，修复了诸多 Bug，让 AI 开发者们直呼 Qwen3：阿里通义千问最新架构，即将发布 5. 其他重要改进与 Bug 修复如果你是 AI 开发者、研究人员，或者对前沿 AI 技术感兴趣，这篇文章绝对不容错过！ 1. Qwen3：阿里通义千问最新架构虽然 Qwen3 的模型尚未正式发布，但 Transformers v4.51.0 已支持其架构，预计阿里很快会推出新版本。 • Llama 4 带来更强大的多模态 MoE 模型 • Phi4-Multimodal 让轻量级多模态 AI 触手可及 • DeepSeek-V3 以低成本实现顶级性能 • Qwen3 蓄势待发，或将再次刷新中文
1.9K30编辑于 2025-04-07
WorkBuddy 完全指南：配置本地 Ollama 模型，实现离线零积分使用
bash复制ollama --version看到版本号输出，说明安装成功 ✅三、下载本地模型Ollama 支持拉取各种开源大模型，以下是我亲测适合不同配置的选项：模型选择建议模型内存占用推荐配置中文能力qwen3 :4b~2.5GB8GB 内存 ✅⭐⭐⭐⭐⭐ 最佳qwen3:8b~5GB16GB 内存 ✅⭐⭐⭐⭐⭐ 最佳llama3.2:3b~2GB8GB 内存 ✅⭐⭐⭐ 一般phi3:3.8b~2.3GB8GB 内存 ✅⭐⭐⭐ 一般推荐：中文用户首选 qwen3:4b（通义千问），中文理解能力最强！拉取模型命令在命令行运行（以 qwen3:4b 为例）：bash复制ollama pull qwen3:4b拉取完成后，测试一下：bash复制ollama run qwen3:4b "你好，介绍一下你自己 :4b（与你拉取的模型名一致）点击保存步骤 3：切换使用配置完成后，在 WorkBuddy 对话界面的模型选择器中，选择你配置的 qwen3:4b (Ollama)，即可开始离线对话！
51800编辑于 2026-06-06
来自专栏福大大架构师每日一题
ollama v0.12.2 版本更新详解：Qwen3 架构支持、Multi-Regex 分词器、新引擎前后缀匹配等功能升级
该版本不仅提升了对 Qwen3 架构（包括 MoE 混合专家模型）的运行支持，还在分词器、内置工具渲染、张量加载等方面做出重大调整。本文将详细解析本次更新的技术细节和影响。一、核心更新摘要 1. Qwen3 架构模型（含 MoE）切换到 Ollama 新引擎运行 • 新引擎更好地支持 Qwen3 系列权重加载与推理，包括 Qwen3-MoE（混合专家）模型。为了适配 Multi-Regex 方案和新引擎，本次更新重构了多个模型的加载方法，包括： • llama / llama4 系列 • mistral3 • mllama • qwen2、qwen25vl、qwen3 对推理系统维护者： • 新引擎对 Qwen3 MoE 支持，意味着可以在 Ollama 中稳定部署混合专家模型。 • 内置工具不重命名修正，提升与工具 API 对接的稳定性。七、总结 ollama v0.12.2 是一次针对核心引擎、分词器、模型加载逻辑的全面升级，尤其是： • 新引擎全面支持 Qwen3 MoE • 多 Regex 分词器 • Tag 前后缀功能 • 内置工具渲染修复
59510编辑于 2025-12-18
来自专栏nobody
Ollama大模型入门指南
前提条件在开始之前，请确保你已经安装Ollama并下载qwen3:4b模型：代码解析 import asyncio from ollama import AsyncClient # 创建异步客户端 content': '你好，如何入门大模型学习'} # 发起流式聊天请求 asyncfor part inawait client.chat( model='qwen3 ://localhost:11434，如果修改了端口需在此指定 llm = ChatOllama( base_url="http://localhost:11434", model="qwen3 ://localhost:11434，如果修改了端口需在此指定 llm = ChatOllama( base_url="http://localhost:11434", model="qwen3
31010编辑于 2026-03-16
来自专栏福大大架构师每日一题
lmdeploy v0.8.0发布！多项核心功能升级，性能爆表，打造AI部署新时代！
Qwen3系列全新支持 • 新增Qwen3及Qwen3MoE模型支持，由@lzhangzz和@CUHKSZxy推动，涵盖PyTorch引擎的全流程兼容，助力更丰富、更高效自然语言处理应用。 • Qwen3 fp8低精度支持，大幅降低计算资源需求同时确保精度。 • 支持Qwen3的AWQ量化，带来轻量化推理新选择。 • MoE门控优化，提升模型专家路由效率。 3. 快速体验Qwen3模型部署 from lmdeploy import LMEngine engine = LMEngine(model_name='Qwen3', device='cuda') response 详细教程及示例可查阅官方文档：https://lmdeploy.internlm.ai/docs 七、总结 InternLM lmdeploy v0.8.0版本带来： • 多设备、多节点并行推理支持 • Qwen3
75110编辑于 2025-05-05
来自专栏机器之心
从GPT-2到gpt-oss，深度详解OpenAI开放模型的进化之路
下图对比了 gpt-oss-20B 与大小相当的 Qwen3 模型。图 13：大小相当的 gpt-oss 和 Qwen3 模型。可以看到，gpt-oss 20B 和 Qwen3 30B-A3B 在架构组件上非常相似。除了尺寸之外，主要区别在于 gpt-oss 采用了滑动窗口注意力，而 Qwen3 则没有。例如，在查看多种尺寸的 Qwen3 MoE 模型（下图 17）时，它们在更多方面彼此之间进行了更均衡的缩放。图 17：各种 Qwen3 模型的架构差异。遗憾的是，目前尚无关于 Qwen3 训练时间的信息。「no tools」的 gpt-oss-120b 数据取自官方模型卡，Qwen3 数据取自官方 Qwen3 代码库。
58710编辑于 2025-08-24
来自专栏精益码农
还有比ollama更傻瓜式的大模型本地部署方式吗？
:8b 500a1f067a9f 5.2 GB 23 hours ago ## size 是预估的显存大小 qwen3:8b vs qwen3- 下载完ollama，选择qwen3:8b大模型，开始下载模型。 1. ollama run qwen3:8b $ ollama run qwen3:8b >>> Send a message (/? curl http://localhost:11434/api/chat -d '{ "model": "qwen3:8b", "messages": [{ "role": "user" }], "stream": false }' {"model":"qwen3:8b","created_at":"2026-01-21T07:57:52.9621534Z","message":{"
1.1K10编辑于 2026-01-27
来自专栏架构进阶
实测｜Mac本地Claude Code，4大热门模型（minimax/qwen/kimi/glm）对比
在自己的MacBook Pro（M4芯片，24GB内存）上，完成了基于Ollama安装Claude Code的全流程验证，并且选取了目前使用频率较高的4个模型——minimax-m2.5:cloud、qwen3 3.2 可选模型 Ollama支持本地模型和云端模型的拉取，其中qwen3:8b、glm-4.7-flash是本地模型（需要下载模型文件到本地），minimax-m2.5:cloud、kimi-k2.5 如果是新手入门、基础编码、离线使用、预算有限，优先选qwen3:8b：轻量化易部署，无使用成本，基础需求完全满足，适合学生、新手开发者，断网环境也能使用。 5.2 按人群选择新手/学生：qwen3:8b（易上手、无成本、基础需求满足）→ 进阶后可切换到glm-4.7-flash（本地）或minimax-m2.5:cloud（云端）。网络不稳定/数据隐私要求高：glm-4.7-flash（本地、高效）、qwen3:8b（本地、轻量化），优先选glm-4.7-flash（性能更优）。
1.8K31编辑于 2026-05-06
来自专栏机器学习与统计学
你的电脑能不能跑大模型？这个本地测评神器，直接给答案
调用是否高效、有没有乱编工具、要求调用的工具有没有都调用到这比单纯跑一个 tok/s 有用多了看榜单我看官方 leaderboard 的公开 API 时，已经有 126 条提交前排数据大概长这样： qwen3 使用先确保你本地有模型服务在跑 Ollama 最简单： ollama pull qwen3:8b ollama serve 然后跑一遍默认 benchmark： benchloop run \ Jan 的 1337 我个人还是建议把 --provider 写清楚，排查问题时省心 LM Studio 这类 OpenAI 兼容服务可以这样跑： benchloop run \ --model qwen3 :8b --harness raw benchloop run --model qwen3:8b --harness hermes benchloop run --model qwen3:8b --harness qwen benchloop run --model qwen3:8b --harness pi 大概可以这样理解： raw：原生工具调用 hermes：<tool_call>{...}
22310编辑于 2026-05-19
探索HTTP流式返回：Python实战与Ollama本地模型测试
例如，拉取一个较小的模型如 phi 或 qwen3:1.7b 以便快速测试： ollama pull qwen3:1.7b 运行模型（Ollama服务会自动加载）： Ollama服务启动后，它会自动处理模型的加载和运行 :1.7b\", \"prompt\":\"给michael阿明讲个笑话\", \"stream\":true}' {"model":"qwen3:1.7b","created_at":"2025-05 -16T14:29:42.259136Z","response":"\u003cthink\u003e","done":false} {"model":"qwen3:1.7b","created_at" ":"让我","done":false} {"model":"qwen3:1.7b","created_at":"2025-05-16T14:29:42.6310473Z","response":"给" ,"done":false} {"model":"qwen3:1.7b","created_at":"2025-05-16T14:29:42.6935324Z","response":"Michael"
28910编辑于 2026-03-25
来自专栏机器学习与统计学
大模型 LLM 架构对比，DeepSeek、Llama、Qwen、Kimi、Mistral、Gemma
图 18：Qwen3 0.6B 与 Llama 3 1B 的架构比较；注意 Qwen3 是更深的架构，层数更多，而 Llama 3 是更宽的架构，注意力头更多。如果您对不依赖外部第三方 LLM 库的 Qwen3 可读实现感兴趣，我最近用纯 PyTorch 从头实现了 Qwen3。 6.2 Qwen3（MoE）如前所述，Qwen3 还有两种 MoE 变体：30B-A3B 和 235B-A22B。为什么像 Qwen3 这样的架构同时提供密集和 MoE（稀疏）变体？图 19：DeepSeek-V3 与 Qwen3 235B-A22B 的架构比较。如上图所示，DeepSeek-V3 和 Qwen3 235B-A22B 的架构非常相似。值得注意的是，Qwen3 模型放弃了共享专家（早期 Qwen 模型如 Qwen2.5-MoE 使用了共享专家）。遗憾的是，Qwen3 团队未披露为何放弃共享专家的原因。
3.9K10编辑于 2025-08-05
来自专栏机器学习与统计学
开源大模型, 重量级选手+1
，优势有三：高效计算：闪电注意力机制显著提升推理效率参数激活优化：虽然总参数量巨大，但每次只激活必要的专家模块线性扩展：时间和空间复杂度随序列长度近似线性增长模型总参数 4560 亿（456B）,比 Qwen3 智能搜索：就是联网搜索，官方建议当需要 MiniMax AI 进行创意写作时关闭此功能Think 模式：就是深度思考我让他生成黑客帝国数字雨 html，效果非常一般DeepSeek-R1-0528 蒸馏 Qwen3 :8B大模型，双 4090本地部署，深得我心比DeepSeek-R1-0528-Qwen3-8B 强，比 Qwen3:32B 弱，更是完全比不上 DeepSeek-R1-0528不过其Agent模式还是很 OK了然后让其设计知识卡片Qwen3 果真拉垮了吗？分别有何深意，输出 SVG 格式，3:4，小红书风格：——省略 1328 字它刚开始也是没有找到第四次的背影，不过在漫长的思考中，它发现并修复了最终效果还行吧，比 Qwen3-235b、Qwen3:32
81820编辑于 2025-06-17
来自专栏猫头虎博客专区
DeepSeek R1 模型小版本升级，DeepSeek-R1-0528都更新了哪些新特性？
数学：AIME‑2025 87.5 %（国产第一，逼近 o3/Gemini‑2.5‑Pro）代码：HumanEval‑Plus 91 % 综合逻辑：MMLU 87.2 此外，官方将思考链蒸馏到 Qwen3 ‑8B，得到 DeepSeek‑R1‑0528‑Qwen3‑8B，在 AIME‑2024 仅次于原版 R1‑0528，超过 Qwen3‑8B (+10 %)，逼平 Qwen3‑235B。
2.1K10编辑于 2025-05-31
来自专栏福大大架构师每日一题
DeepSpeed v0.16.6震撼发布！性能优化+BUG修复全解析，AI训练再提速！
新功能支持：Qwen3自动张量并行（AutoTP）支持，复杂场景下的TiedLayerSpec兼容性增强！ 4. 兼容性升级：适配PyTorch最新梯度钩子API，修复HPU内存映射问题。新功能支持 • Qwen3自动张量并行（AutoTP）支持新增对Qwen3模型的自动张量并行优化，简化大模型训练配置。
82510编辑于 2025-04-18
来自专栏福大大架构师每日一题
ollama v0.12.6 更新详解：搜索支持、性能优化与 Vulkan 实验性支持
模型搜索功能扩展 • 在运行 DeepSeek-V3.1、Qwen3 等支持工具调用的模型时，Ollama 应用现在支持搜索功能，大幅提升了模型交互和数据检索效率。 2. • 修复 Qwen3 模型的 distill 问题。同时，一系列针对 Qwen3 系列模型和 GPU 支持的修正，让该版本更加稳定、适用范围更广。对于开发者而言，本次更新不仅改善了现有工作流程，还为未来硬件适配提供了新的可能。
78710编辑于 2025-12-18
来自专栏周拱壹卒
【译】混合专家（Mixture of Experts, MoE）
改变了什么：一个稠密前馈路径变成了多个专家前馈路径，外加一个路由实际好处：模型可以拥有更高的总容量，同时每个 token 只激活较小的路径示例架构：DeepSeek V3[6]、Qwen3 235B-A22B 示例架构 DeepSeek V3[13]：画廊中最清晰的 MoE 参考点 Qwen3 235B-A22B[14]：一个当前的大规模开放 MoE 模型，具有 GQA GPT-OSS 120B[15]：一个稀疏的 the-big-llm-architecture-comparison [6] DeepSeek V3: https://sebastianraschka.com/llm-architecture-gallery/#card-deepseek-v3 [7] Qwen3 latent-moe/ [13] DeepSeek V3: https://sebastianraschka.com/llm-architecture-gallery/#card-deepseek-v3 [14] Qwen3
38610编辑于 2026-04-09

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

vLLM部署Qwen3:6B模型启动失败

大模型写高考作文，状元是DeepSeek，榜眼是Qwen3，探花是Gemini

ollama v0.12.1 更新详解：新增 Qwen3 Embedding、云模型支持与多项功能修复

vLLM 部署 Qwen3-VL-32B-Thinking 模型 reasoning_content 为空问题解决记录

DeepSeek-V3、Qwen3 齐登场，AI 领域再迎巨变！

WorkBuddy 完全指南：配置本地 Ollama 模型，实现离线零积分使用

ollama v0.12.2 版本更新详解：Qwen3 架构支持、Multi-Regex 分词器、新引擎前后缀匹配等功能升级

Ollama大模型入门指南

lmdeploy v0.8.0发布！多项核心功能升级，性能爆表，打造AI部署新时代！

从GPT-2到gpt-oss，深度详解OpenAI开放模型的进化之路

还有比ollama更傻瓜式的大模型本地部署方式吗？

实测｜Mac本地Claude Code，4大热门模型（minimax/qwen/kimi/glm）对比

你的电脑能不能跑大模型？这个本地测评神器，直接给答案

探索HTTP流式返回：Python实战与Ollama本地模型测试

大模型 LLM 架构对比，DeepSeek、Llama、Qwen、Kimi、Mistral、Gemma

开源大模型, 重量级选手+1

DeepSeek R1 模型小版本升级，DeepSeek-R1-0528都更新了哪些新特性？

DeepSpeed v0.16.6震撼发布！性能优化+BUG修复全解析，AI训练再提速！

ollama v0.12.6 更新详解：搜索支持、性能优化与 Vulkan 实验性支持

【译】混合专家（Mixture of Experts, MoE）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

vLLM部署Qwen3:6B模型启动失败

大模型写高考作文，状元是DeepSeek，榜眼是Qwen3，探花是Gemini

ollama v0.12.1 更新详解：新增 Qwen3 Embedding、云模型支持与多项功能修复

vLLM 部署 Qwen3-VL-32B-Thinking 模型 reasoning_content 为空问题解决记录

DeepSeek-V3、Qwen3 齐登场，AI 领域再迎巨变！

WorkBuddy 完全指南：配置本地 Ollama 模型，实现离线零积分使用

ollama v0.12.2 版本更新详解：Qwen3 架构支持、Multi-Regex 分词器、新引擎前后缀匹配等功能升级

Ollama大模型入门指南

lmdeploy v0.8.0发布！多项核心功能升级，性能爆表，打造AI部署新时代！

从GPT-2到gpt-oss，深度详解OpenAI开放模型的进化之路

还有比ollama更傻瓜式的大模型本地部署方式吗 ？

实测｜Mac本地Claude Code，4大热门模型（minimax/qwen/kimi/glm）对比

你的电脑能不能跑大模型？这个本地测评神器，直接给答案

探索HTTP流式返回：Python实战与Ollama本地模型测试

大模型 LLM 架构对比，DeepSeek、Llama、Qwen、Kimi、Mistral、Gemma

开源大模型, 重量级选手+1

DeepSeek R1 模型小版本升级，DeepSeek-R1-0528都更新了哪些新特性？

DeepSpeed v0.16.6震撼发布！性能优化+BUG修复全解析，AI训练再提速！

ollama v0.12.6 更新详解：搜索支持、性能优化与 Vulkan 实验性支持

【译】混合专家（Mixture of Experts, MoE）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

还有比ollama更傻瓜式的大模型本地部署方式吗？