ollama v0.12.10 版本更新详解——新增 embedding 模型支持与多项优化

福大大架构师每日一题

发布于 2025-12-19 08:53:40

4370

近日，ollama 发布了 v0.12.10 版本（发布日期：2025年11月7日），本次更新在功能与性能方面均有提升。其中最重要的亮点是 ollama run 现已支持运行 embedding 模型，用于从文本生成向量嵌入。同时，多个针对性能与稳定性的改进也被加入本版本。本文将详细解析 v0.12.10 的主要更新内容。

1. ollama run 支持 embedding 模型

在 v0.12.10 中，ollama run 命令不仅能运行传统的推理模型，还可以直接运行 embedding 模型，从文本生成对应的向量嵌入。

示例用法：

ollama run embeddinggemma "Hello world"

该功能还支持通过标准输入提供内容，例如：

echo "Hello world" | ollama run embeddinggemma

这一改动使得向量化处理文本的流程更加简洁、高效，便于在搜索、推荐、语义匹配等应用中直接使用生成的 embeddings。

2. 模型运行兼容性修复

• 修复了在运行 qwen3-vl:235b 和 qwen3-vl:235b-instruct 模型时出现的错误，提升了相关视觉-语言模型的稳定性。

3. Vulkan 支持增强

• 启用 Flash Attention for Vulkan（目前需要从源码构建）。
• 新增 Vulkan 内存检测：针对 Intel GPU，使用 DXGI + PDH 进行内存检测，提升 GPU 资源监控能力。

4. API 改进

• /api/chat 接口在调用工具（Tool）时，现在会返回 Tool Call ID，便于开发者在多工具调用场景下进行跟踪和管理。

5. 系统性能与交互优化

• 修复了因 CPU 发现过程引起的卡死问题，提升了系统的稳定性。
• 在交互模式下，当用户切换到云模型时，ollama 会显示登录指引，增强用户体验。
• 修复读取 过期 VRAM 数据 的问题，优化显存数据处理。

6. 总结

ollama v0.12.10 的更新重点在于：

1. ollama run 现在可以直接运行 embedding 模型，为文本向量化提供了高效途径。
2. 修复了多项模型运行的兼容性问题，特别是针对视觉语言模型。
3. 增强了 Vulkan 的功能与 GPU 内存检测能力。
4. 提供 API 返回工具调用 ID，更好地支持开发者调试与管理。
5. 优化了交互体验并提升了系统稳定性。

我们相信人工智能为普通人提供了一种“增强工具”，并致力于分享全方位的AI知识。在这里，您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。欢迎关注“福大大架构师每日一题”，发消息可获得面试资料，让AI助力您的未来发展。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-11-07，如有侵权请联系 cloudcommunity@tencent.com 删除

embedding

本文分享自福大大架构师每日一题微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

ollama v0.12.10 版本更新详解——新增 embedding 模型支持与多项优化

ollama v0.12.10 版本更新详解——新增 embedding 模型支持与多项优化

1. ollama run 支持 embedding 模型

2. 模型运行兼容性修复

3. Vulkan 支持增强

4. API 改进

5. 系统性能与交互优化

6. 总结

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐