搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏机器学习与统计学
Qwen3.5 本地部署
Qwen3.5 本身就是混合架构（Gated Delta Networks + MoE），llama.cpp 已经做了支持。 1. 运行推理 Qwen3.5 支持两种模式：思考模式（Thinking）和快速模式（Non-Thinking），两者需要不同的采样参数。上下文窗口，最大支持 262,144 --n-gpu-layers 2：GPU 层卸载数，显卡内存不够就减小，纯 CPU 就移除方案二：部署为 API 服务（llama-server）如果你想把 Qwen3.5 user", "content": "用 Python 写一个快速排序"}, ], ) print(completion.choices[0].message.content) 这意味着你可以把 Qwen3.5 视觉 + 文本推理（原生多模态） pip install mlx-vlm mlx_vlm.chat --model Qwen/Qwen3.5-397B-A17B 工具调用（Tool Calling） Qwen3.5
3K10编辑于 2026-03-02
来自专栏大模型本地部署
Qwen3.5本地部署
0.简介本教程参考了Unsloth上有关Qwen3.5部署的教程，但是国内由于网络等原因，部署的时候会遇到一系列问题，因此以下给出逐一解决的方法。后续会持续更新Qwen3.5其他系列模型。
1.8K00编辑于 2026-03-06
来自专栏福大大架构师每日一题
ollama v0.17.6 发布：重大解析修复与 Qwen3.5 完整支持，全链路优化模型渲染与工具调用
引入全新的 Qwen3.5 渲染及解析模块，全面支持 thinking 模式此次更新共包含 12 次提交、修改 51 个文件，由 7 名开发人员完成。四、模型渲染层优化：全面更新 Qwen3.5 与 GLM-OCR Renderer 渲染器层：model/renderers/ 目录新增了两大核心组件： 1. 该渲染器对应 Qwen3.5 模型 prompt 生成逻辑，旨在让模型完全遵循 XML 函数调用格式与 <think> 思考框架。该模块的引入使得 Ollama 在多模型推理框架下更贴合阿里 Qwen3.5 推理接口的真实结构。 2. 针对复杂推理模型，如 Qwen3.5 这种包含 <think> 和 <tool_call> 的混合流式结构，此轮测试确保无论在并发推理还是断流恢复场景下都不丢失内容。
1.6K30编辑于 2026-03-09
来自专栏福大大架构师每日一题
ollama v0.17.5正式发布：新增Qwen3.5系列模型，全方位优化GPUCPU分配、采样惩罚与内存管理机制详解
这一版本可谓一次重要升级，核心亮点在于新增了Qwen3.5系列模型，并全面改进了采样算法、GPU与CPU混合分配机制、内存峰值监控以及MLX引擎下的稳定性。新增模型系列：Qwen3.5 v0.17.5引入了全新的模型系列——Qwen3.5，包括 0.8B、2B、4B 与 9B 四个参数规模版本。这使得开发者能根据硬件资源灵活选择不同性能梯度的模型。值得注意的是，在此次版本中，Qwen3.5模型支持 GPU 与 CPU 混合加载模式，同时针对模型“自我重复”问题进行了深度修复。新模型可通过命令重新下载： ollama pull qwen3.5:35b 2. GPU & CPU分配相关修复新版本修复了Qwen3.5模型在GPU与CPU拆分运行时的崩溃问题。模型层级革新：引入Qwen3.5模型、兼容GGUF导入、修复DeltaNet问题； 2. 采样系统强化：添加三重惩罚策略、优化历史记忆机制； 3.
1.7K20编辑于 2026-03-04
来自专栏架构之巅
从架构师视角看Qwen3.5小模型的破局之道
要理解Qwen3.5小模型的优势，我们需要先拆解它的技术基因。 Qwen3.5小模型的突破在于原生多模态训练——从模型设计之初，就将图像、文本等多模态数据作为"第一公民"进行联合训练。架构创新与强化学习扩展：小身材的"大力士"Qwen3.5系列采用了门控线性网络（GatedDeltaNetwork）与混合专家（MoE）机制相结合的架构设计。四款模型的定位与应用场景从架构设计和技术选型的角度看，Qwen3.5此次开源的四个模型并非简单的"尺寸缩小版"，而是针对不同应用场景的精准布局。小模型的"大"机会从商业视角看，Qwen3.5小模型的发布，正在打开几扇新的大门。
1K20编辑于 2026-03-05
来自专栏机器学习与统计学
Qwen3.5 0.8B2B4B9B 小模型本地部署指南，微调教程
大家好，我是 Ai 学习的老章关于 Qwen3.5，我最近写了不少： Qwen3.5 本地部署终极指南，强烈推荐 Qwen3.5-27B Qwen3.5 轻量版来了，更智能，更小巧，量化版本地部署，消费级显卡轻松跑教程：如何关闭 Qwen3.5 系列大模型的 Thinking（不输出思考过程） Qwen3.5 系列大模型，无脑选 Qwen3.5-27B 今天这篇是 Qwen3.5 小型模型系列（0.8B / 2B 这次 Qwen3.5 小模型系列一发布，Unsloth 就同步放出了全系 GGUF，效率拉满。推荐采样参数 Unsloth 和 Qwen 官方都给了推荐参数进阶：用 Unsloth 免费微调 Qwen3.5 小模型光能跑推理还不过瘾？还记得 Qwen3.5 是原生多模态模型吗？
15.5K242编辑于 2026-03-05
来自专栏机器学习与统计学
Qwen3.5本地部署终极指南，Qwen3.5-27B
Qwen3.5 轻量版来了，更智能，更小巧，量化版本地部署，消费级显卡轻松跑一文中测试了，十分建议：首选 Qwen3.5-27B，无论是官方benchmark测评还是其他网友评价，都支持这一结论 Qwen3.5 全阵容：阿里这次玩了个大的阿里最新发布的 Qwen3.5，不再只是单个模型，而是一整个军团：型号类型总参数激活参数定位 Qwen3.5-27B Dense 27B 27B 稳扎稳打型 Qwen3.5 官方推荐设置 Qwen3.5 支持混合推理，thinking 和 non-thinking 模式的参数不一样，别搞混了： Thinking 模式（深度推理）参数精确编码通用任务 temperature 工具调用：本地 Agent 的基础 Qwen3.5 原生支持 function calling，配合 llama-server 可以直接做本地 Agent。
12.2K42编辑于 2026-03-02
来自专栏机器学习与统计学
Qwen3.5 要来了，字节、DeepSeek 春节或将发布旗舰大模型
Qwen3.5、MiniMax2.2、字节跳动 Seed、DeepSeek-V4 都要来了吗？最近，LMSYS Chatbot Arena（目前的“大模型盲测”权威榜单）上又热闹起来了。 Karp-001：I'm Qwen3.5, developed by Tongyi Lab. 字节系 Seed 2.0 Seed 2.0 Flash Seed Code 2 阿里 Qwen 系 Qwen3.5 models DeepSeek 系 DeepSeek-V4 DeepSeek-V4-Lite
35510编辑于 2026-03-02
阿里除夕开源千问3.5：3970亿参数但只激活170亿，大模型部署成本砍半怎么做到的？
今天我们就借着Qwen3.5这把“尺子”，把这个问题彻底捋清楚。架构层面的“降本增效”，到底是怎么做到的？Qwen3.5这次最让大家感兴趣的不是参数规模，而是它怎么把成本降下来的。先说混合注意力机制。 Qwen3.5的做法是——关键信息高精度处理，次要信息低成本带过。在256K超长上下文场景下，推理吞吐量直接飙到19倍。这意味着以前处理100份长文档的时间，现在能处理近2000份。 Qwen3.5在训练阶段就学会联合预测多个未来词，从逐字输出变成批量输出，推理速度接近翻倍。这背后还有千问团队去年斩获NeurIPS最佳论文的门控技术，被用在了Qwen3.5里。 Qwen3.5对微调格外友好：27B稠密模型专门为微调优化，训练稳定不易发散；MoE系列也可以用LoRA等轻量方案低成本微调。 Qwen3.5的丰富型号让这种叠加更灵活：知识密集型任务用35B-A3B+RAG，决策型任务用27B微调，复杂Agent用122B-A10B+微调。
37410编辑于 2026-03-02
来自专栏AI工程落地
GLM 5 vs Qwen3.5 vs MiniMax M2.5 vs kimi k2.5
4.4K00编辑于 2026-02-27
来自专栏机器学习与统计学
Ollama 又一新玩法
Ollama 先上一盘小菜，一键启动，免费使用 ollama run qwen3.5:cloud 之前，Ollama 已经陆续免费放出 Kimi-K2.5、GLM-5、MiniMax-M2.5，应该已经形成惯例了
64610编辑于 2026-03-02
从“脸盲”到“火眼金睛”：我用Qwen3.5教会AI看懂春晚同款机器人
Qwen3.5系列恰好具备这样的基因：●视觉语言深度融合：在多模态Token上进行早期融合训练，在推理、编码、智能体和视觉理解等基准测试中，跨代际达到与Qwen3相当的水平，并超越Qwen3-VL模型。为了验证微调后的效果，我们进行了一场“面对面”测试：测试点原始Qwen3.5模型微调后Qwen3.5-Robot专家识别准确度识别模糊，无法给出具体品牌和型号精准识别出UnitreeH1，并详述其运动性能行业深度描述偏通用
15710编辑于 2026-03-09
来自专栏福大大架构师每日一题
ollama v0.17.7 最新发布：思考层级正确解析、上下文压缩强化，核心模块全面优化！
完善云模型上下文配置映射：多个知名模型（如 qwen3.5、glm-5、kimi 系列）获得标准化的上下文与输出长度定义。 4. 新增 qwen3.5 模型上下文长度定义在 cmd/config/integrations.go 文件中，cloudModelLimits 新增了如下条目： "qwen3.5": {Context: 262_144, Output: 32_768}, 表明 qwen3.5 云模型的上下文长度被设定为 262,144 tokens，输出上限为 32,768 tokens。代码逻辑层细节变化汇总模块文件修改点功能概述 server/routes.go 删除 think 参数约束思考层级开放支持全部模型 cmd/config/integrations.go 增加 qwen3.5
56610编辑于 2026-03-09
9个视觉语言模型工厂实测：Qwen 87.9%碾压全场，你的显卡能跑哪个？
三个最值得记住的数字：87.9%——Qwen家族最高准确率，包揽前四名，最低的8b版本（83.9%）仍碾压所有非Qwen模型35b = 235b——qwen3.5:35b和qwen3-vl:235b准确率相同发现二：35b小模型 = 235b大模型（准确率相同）最反常识的结果：qwen3.5:35b 和 qwen3-vl:235b 准确率一样，都是87.9%。 12GB实测部署了Gemma3，24GB能跑Qwen3.5:35b4. 什么时候该用VLM而不是传统CV？需要识别未知类别/零样本/灵活更改规则时5. VLM最大的坑是什么？
47720编辑于 2026-03-10
来自专栏福大大架构师每日一题
ollama v0.17.2正式发布：修复Windows启动崩溃、优化自动更新系统、支持Qwen3.5与LFM2多架构，全面解析这一版本的技术革新
版本核心特性概览 v0.17.2 发布时间： 2026年2月27日主要变更摘要： • 修复 Windows 应用更新时启动崩溃问题 • 改进自动更新逻辑与数据库配置 • 新增“自动下载更新”用户设置项 • 支持Qwen3.5 增加对Qwen3.5系列与NemotronH支持 convert/convert.go新增： case "Qwen3_5ForConditionalGeneration", "Qwen3_5MoeForConditionalGeneration 生态扩展：支持Qwen3.5、NemotronH、LFM2Moe等新架构； 5. 构建优化：编译链与绑定库同步升级； 6. 测试完善：全流程验证，开发稳定性增强。
44010编辑于 2026-03-04
来自专栏机器学习与统计学
没想到最先来的是 GLM-5，师承 DeepSeek，股价大涨40%
上午Qwen3.5 要来了，字节、DeepSeek 春节或将发布旗舰大模型一文中还在讨论 Qwen 3.5、字节 Seed、DeepSeek-V4 谁会先发，结果万万没想到——最有可能发布的是智谱的 GLM
14910编辑于 2026-03-02
来自专栏机器学习与统计学
国内大模型春晚，老美那边也没闲着
26年的 AI 圈，真的是喝了六个核桃——齐齐开窍最近 Kimi-K2.5、GLM-5、MiniMax-M2.5，Qwen3.5 轮番上阵，没有DeepSeek的春节只有 Qwen3.5 亮相，显得有点冷清
30610编辑于 2026-03-02
摩尔线程2025年营收超15亿元，同比增长243.37%
2026年春节前后，凭借MUSA架构卓越的生态兼容性和广泛的算子库，MTT S5000已高效完成对GLM-5、MiniMax M2.5、Kimi K2.5及Qwen3.5等SOTA大模型的深度适配。
22710编辑于 2026-03-19
来自专栏编码如写诗
AI视频创作的新时代正在到来：从“一个人就是一个剧组”到对话式剪辑
阿里Qwen3.5模型开源：采用混合注意力机制，原生支持视觉理解。开源AI模型的性能正在快速提升。未来的想象空间当视频创作的门槛消失之后，会发生什么？
21710编辑于 2026-03-02
OpenClaw 深度解析：原理架构与实战技巧
记忆管理技巧技巧1：主动记录展开代码语言：TypeScriptAI代码解释//重要事件写入记忆write(path:"memory/2026-03-18.md",content:"##重要决定\n-邰总确认使用Qwen3.5 回复中单独一行：MEDIA:/Users/taiguangyin/report.pdf7.高级功能与最佳实践7.1多模型路由展开代码语言：TypeScriptAI代码解释//根据任务选择模型{"简单问答":"qwen3.5
69721编辑于 2026-03-18

第 2 页

Qwen3.5 本地部署

Qwen3.5本地部署

ollama v0.17.6 发布：重大解析修复与 Qwen3.5 完整支持，全链路优化模型渲染与工具调用

ollama v0.17.5正式发布：新增Qwen3.5系列模型，全方位优化GPUCPU分配、采样惩罚与内存管理机制详解

从架构师视角看Qwen3.5小模型的破局之道

Qwen3.5 0.8B2B4B9B 小模型本地部署指南，微调教程

Qwen3.5本地部署终极指南，Qwen3.5-27B

Qwen3.5 要来了，字节、DeepSeek 春节或将发布旗舰大模型

阿里除夕开源千问3.5：3970亿参数但只激活170亿，大模型部署成本砍半怎么做到的？

GLM 5 vs Qwen3.5 vs MiniMax M2.5 vs kimi k2.5

Ollama 又一新玩法

从“脸盲”到“火眼金睛”：我用Qwen3.5教会AI看懂春晚同款机器人

ollama v0.17.7 最新发布：思考层级正确解析、上下文压缩强化，核心模块全面优化！

9个视觉语言模型工厂实测：Qwen 87.9%碾压全场，你的显卡能跑哪个？

ollama v0.17.2正式发布：修复Windows启动崩溃、优化自动更新系统、支持Qwen3.5与LFM2多架构，全面解析这一版本的技术革新

没想到最先来的是 GLM-5，师承 DeepSeek，股价大涨40%

国内大模型春晚，老美那边也没闲着

摩尔线程2025年营收超15亿元，同比增长243.37%

AI视频创作的新时代正在到来：从“一个人就是一个剧组”到对话式剪辑

OpenClaw 深度解析：原理架构与实战技巧

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐