



2026年2月21日,ollama 团队正式发布 v0.16.3 最新版本。这一版本是继上次更新后的又一次重要功能升级与性能优化版本,不仅集成了全新的 Cline CLI 启动支持,还在多项关键功能上进行了拓展与修复,包括:
ollama launch clineollama launch 现在始终显示模型选择器这一版本的改动范围广泛,涉及命令行接口 (CLI)、模型调度(MLX runner)、服务器中间件、解析器系统、安装脚本、文档系统等七大板块。
下面我们将详细拆解 ollama v0.16.3 的新版特性与底层改动。
ollama v0.16.3 的最大亮点之一,是新增了对 Cline 集成的完整支持。Cline 是一个自适应的自主编码代理系统(Autonomous Coding Agent),具有多线程、并行执行等特性。通过 ollama launch cline 命令,用户可以直接与 Cline 进行连接与模型调度。
新版实现了完整的 cmd/config/cline.go 文件与对应的单元测试 cline_test.go,其中关键能力包括:
ollama launch cline该命令将自动检测本地是否安装了 Cline CLI (npm install -g cline),并在检测到未安装时提示进行安装。
路径默认为:
~/.cline/data/globalState.json系统会根据此路径调用配置文件,并在首次运行时自动生成。
安装后,系统会向 globalState.json 文件添加:
{
"ollamaBaseUrl":"http://localhost:11434",
"actModeApiProvider":"ollama",
"planModeApiProvider":"ollama",
"actModeOllamaModelId":"kimi-k2.5:cloud",
"planModeOllamaModelId":"kimi-k2.5:cloud"
}这意味着 Cline 的 “执行模式 (act)” 与 “规划模式 (plan)” 都将以 Ollama 为后端,全面接管语言模型调用。
Cline.Models() 方法会读取并返回当前配置模型,如:
["kimi-k2.5:cloud"]Cline 会将该模型作为主力执行模型,支持在 Ollama 侧继续进行 pull / switch / run 操作,从而实现一体化模型调用体验。
单元测试验证了以下场景:
此功能的加入使得 Ollama 在自动化编程与智能代理方向的扩展更加稳固。
在模型层面,v0.16.3 引入了 Gemma 3、Llama 3 和 Qwen 3 架构。在 model: add gemma3 / llama3 / qwen3 三条提交中,分别增加了对这三类架构的 MLX Runner 兼容。
新的解析函数在 model/parsers/parsers.go 中定义:
case "qwen3":
p = &Qwen3Parser{hasThinkingSupport: false, defaultThinking: false}
case "qwen3-thinking":
p = &Qwen3Parser{hasThinkingSupport: true, defaultThinking: true}
case "qwen3-coder":
p = &Qwen3CoderParser{}新增的 Qwen3Parser 系列支持模型多阶段输出解析,包括:
<think> 思考阶段结构化提取<tool_call> 工具调用自动识别新解析器设计了完整的状态机,包括:
CollectingThinking → CollectingContent → CollectingToolContent → Done能够准确区分模型自我思考(Thinking Block)与用户输出(Content Block)。
此外,通过精确的 JSON 提取逻辑实现了对工具调用结构的复原:
{"name": "get_weather", "arguments": {"location": "San Francisco"}}在单元测试中验证了思考标签、工具调用、拆分流式输入等多种边界情形。
ollama launch 模型选择交互优化命令行行为调整为:无论是否存在默认模型,都将强制显示选择器,防止命令误触导致错误模型执行。新增的代码修改点为:
cmd: ollama launch always show model picker (#14299)DefaultSingleSelector 添加第三个参数 current,支持高亮当前默认模型selectIntegration() 改为按优先级(自定义排序 + 字母顺序)展示integrationOrder = []string{"opencode", "droid", "pi", "cline"},保证重点项目优先展示支持的集成列表中新增:
cline Cline
pi Pi并在帮助信息中更新:
Supported integrations:
claude Claude Code
cline Cline
codex Codex
droid Droid
opencode OpenCode
openclaw OpenClaw
pi PiTUI 交互在 v0.16.3 作出了近百行改动,实现更智能、更流畅的多选操作体验。
multi=false),使用 Tab 键 可切换至多选"↑/↓ navigate • enter select • tab add multiple • esc cancel""↑/↓ navigate • space toggle • tab select single • enter confirm • esc cancel"函数 cursorForCurrent() 支持模糊匹配当前选中项,并在存在相似名称 (e.g. qwen3 vs qwen3:8b) 时智能跳转对应位置,避免浏览冗余。
(default) 标签标注[x] / [ ] 动态渲染此改进显著提升了交互式模型挑选体验,使得管理多模型集成更直观。
在 middleware/openai.go 中,ollama 增加了对 zstd 压缩格式的自动识别与解压能力:
if c.GetHeader("Content-Encoding") == "zstd" {
reader, err := zstd.NewReader(c.Request.Body, zstd.WithDecoderMaxMemory(8<<20))
...
}Content-Encoding: zstd 删除,继续 JSON 解析400 Bad Request单元测试全面覆盖三类情况:
验证了解压、模型字段读取、对话体内容提取的正确性。
在 scripts/install.sh 中,v0.16.3 为安装脚本添加了安全包装:
# Wrap script in main function so that a truncated partial download doesn't end
# up executing half a script.
main() {
...
}
main此举避免了用户脚本部分下载时执行未完整逻辑的风险。
路径:docs/integrations/pi.mdx
完整说明了如何通过 npm 安装 @mariozechner/pi-coding-agent,并配置到 Ollama:
ollama launch pi或手动设置 ~/.pi/agent/models.json 文件。
在 docs/integrations/index.mdx 中新增:
并完善分类结构,将 “Assistants” 和 “Coding” 集合区分更加清晰。
• 修复 MLX 参数显示错误与层工厂缺失问题。
• 优化 ollama show 在 MLX 环境下的参数计数显示。
• 模型调度器增强任务分配逻辑(better mlx model scheduling)。
• 修复 macOS 下载链接指向错误。
• 恢复 mlx-c bindings 到版本 0.5.0 的兼容性。
• CLI 中增设环境变量:
OPENAI_BASE_URL
OPENAI_API_KEY用于 Codex 集成与代理请求重定向。
• 更新 go.mod 依赖,新增 github.com/klauspost/compress v1.18.3。
代码地址:github.com/ollama/ollama
通过 ollama v0.16.3,我们看到这一版本不仅仅是增量更新,而是一次 全栈强化:
这一版本代表着 ollama 自研生态进入了“多核代理时代”,它不再只是模型运行器,而开始成为智能代理系统的统一底座。
结语:
ollama v0.16.3 不仅带来了更多模型和更强的交互性,更在底层架构和安全机制上迈出了关键的一步。借助这次更新,开发者能够更高效地集成多模型、多代理系统,运行本地的智能开发助手、AI编码代理与自主系统。
未来版本极有可能继续扩展更多编码代理和模型运行架构,而 v0.16.3 作为承上启下的重要节点,为 Ollama 走向 AI 工具生态中心打下了坚实基础。
·
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。 欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。
·