搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏福大大架构师每日一题
ollama v0.21.0 最新更新：Hermes Agent 与 Ollama 联动、Copilot CLI 集成、launch 配置优化、Gemma4 与 MLX 多项性能修复全解析
根据模型大小不同进行不同渲染更新项： gemma4: render differently based on model size 这条说明 Gemma4 的渲染逻辑会根据模型大小采用不同方式。 Gemma4 cache 使用 logical view 更新项： mlx: fix gemma4 cache to use logical view 这条说明在 MLX 相关模块中修复了 Gemma4 5. additional Gemma4 cache fixes 更新项： mlx: additional gemma4 cache fixes 这条继续补充了 Gemma4 cache 的修复工作，说明相关问题不止一处提升 gemma4 的 fused operations 性能更新项： mlx: Improve gemma4 performance with fused operations 这一条进一步表明，Gemma4 进一步修复 Gemma4 cache 逻辑前文已经提到： • mlx: fix gemma4 cache to use logical view • mlx: additional gemma4 cache
1.2K20编辑于 2026-04-21
31B参数打败20倍体量的对手——Google Gemma 4凭什么让开源圈炸了？
大家好，我是摘星，今天我们来聊聊Google刚放出的这个"怪物"——Gemma4。二、Gemma4架构全景：密集型+MoE双轨并行Gemma4最让我感兴趣的设计，是它同时采用了两种截然不同的架构路线，而不是像很多模型那样"一招走天下"。蒸馏技术：Gemma4基于Gemini3技术，而Gemini3本身是一个参数量远大于31B的闭源模型。Gemma4很可能是从Gemini3蒸馏而来的，继承了教师模型的大量知识。 Gemma4支持Ollama和vLLM两种主流部署方案，下面分别给出具体步骤。7.1用Ollama本地运行Gemma4（适合个人开发者）Ollama是大模型本地部署最简单的方式，一行命令就能跑起来。十、我的看法：Gemma4的真正意义写到这里，我想跳出技术细节，聊聊Gemma4对整个行业的意义。首先，Gemma4证明了"参数效率"正在成为新的竞争焦点。
3.2K00编辑于 2026-04-05
来自专栏福大大架构师每日一题
LlamaFactory v0.9.5 发布：Qwen3.5/Qwen3.6/Gemma4 全面支持，Transformers v5 兼容性正式到位
从这次更新说明来看，v0.9.5 的核心方向非常明确：新增对 Qwen3.5、Qwen3.6、Gemma4 的主力支持，并完成对 Transformers v5 的兼容适配。 1、版本核心亮点：Qwen3.5 / Qwen3.6 / Gemma4 + Transformers v5 v0.9.5 最醒目的升级，就是在版本标题中直接点明了两件事： • Added primary 4、Gemma4 支持落地，并补齐多模态细节除了 Qwen3.5/3.6，Gemma4 也是本版本标题级重点。对应更新包括： • gemma4 • fix gemma4 mm_token_type_ids padding • fix projector lookup for gemma4 modules 这说明 Gemma4 的支持并不仅是模型入口层面的接入，还包括多模态 token 类型、padding 细节以及 projector 模块检索修复。
37710编辑于 2026-06-02
48小时连发5款大模型，2026年AI圈的卷法已经超出你想象
二、Gemma4：谷歌的"开源核弹"2.1为什么说Gemma4是开源领域的一次地震谷歌对Gemma系列的定位一直很明确——把Gemini的能力"平民化"。 Gemma4这次一口气出了四个版本，直接把能力拉到了商用级别。 2.2多语言是杀手锏Gemma4基于超过140种语言训练，其中35种以上可以直接使用。这个覆盖面在开源模型中几乎没有对手。趋势一：MoE架构从小众走向主流Gemma4的26B版本、以及之前DeepSeek-V3的671B版本，都采用了MoE架构。趋势三：多模态从"能力"变成"标配"五款模型中有三款原生支持多模态——Gemma4（图像/视频/音频）、GLM-5V-Turbo（图像/视频）、Phi-4-Vision（图像）。
23.6K140编辑于 2026-04-06
来自专栏仙踪·智能助手
云端MoE vs 本地Dense：DeepSeek与Gemma4 26B的选题策划能力量化对比评测
在热点数据层面，Gemma4对来源和热度信息的标注较为笼统。它提到了知乎、微博、抖音等平台，但没有给出具体的排名或热度数值。在主题提炼能力上，Gemma4表现出了明显的"概念升华"倾向。它不是围绕单条热点做发散，而是将多条相关热点归并到同一个概念框架下。在立意深度层面，Gemma4产出的"外挂大脑"概念（将AIAgent定位为"接管琐碎工作以缓解心理内耗"的辅助工具），是一个比较有创意的类比。 Gemma4的转化路径则更为迂回。同样涉及本地部署的内容，Gemma4提出的切入点是"软件定义智能""性能压榨"这类需要读者花更多认知成本理解的概念。如果追求账号调性建设和深度内容，Gemma4提供了更丰富的概念素材。两者的互补特征足够明显，融合使用能够形成质量更高的输出。
18510编辑于 2026-05-13
来自专栏福大大架构师每日一题
MLX 性能大幅提升， Gemma4 闪光注意力全面启用
底层推理加速优化：MLX框架M5性能提升、Gemma4闪光注意力启用与兼容修复 2. 模型创建流程重构：实验性路径清理、Safetensors模型导入修复与逻辑简化 3. （二）Gemma4模型全面支持：闪光注意力启用与兼容修复 Gemma4作为新一代轻量级高性能大模型，在ollama v0.20.4中获得完整支持，核心更新包括两项： 1. ，在GGML底层代码中完成配置注册，使Gemma4模型在支持的GPU平台上自动开启闪光注意力加速。同时，本次更新还补充了Gemma4相关缺失文件，完善模型加载依赖，解决了此前版本中Gemma4模型加载失败、配置缺失的问题，实现从模型加载到推理运行的全流程稳定支持。硬件性能进一步释放 MLX M5优化与Gemma4闪光注意力启用，使苹果芯片用户获得更高推理速度，老旧GPU也能稳定运行新型模型。 2.
1.4K20编辑于 2026-04-14
OpenClaw + 离线 Gemma 4：省Token，保隐私
baseUrl":"http://IP_address:11434", "apiKey":"ollama-local", "api":"ollama", "models":[ { "id":"gemma4 :e2b", "name":"gemma4:e2b", "reasoning":false, "input":["text"], "cost":{ input:0, output:0, cacheRead , "maxTokens":1000 } ] } } } Agent模型配置： "agents":{ "defaults":{ "model":{ "primary":"ollama/gemma4 :e2b" }, "models":{ "ollama/gemma4:e2b":{} } } } 两个关键点，容易翻车的地方 contextWindow 和 maxTokens：一开始可以设小一点
72720编辑于 2026-04-13
来自专栏低代码平台
本地跑 Gemma 4 替代 Claude Code？M4 Max 实测告诉你为什么行不通
JeecgBootAI专题研究|谷歌Gemma4本地部署对接ClaudeCode的完整踩坑实录与性能分析起因：ClaudeCode的Token黑洞事件2026年4月前��，ClaudeCode社区炸了锅正巧赶上2026年3月31日，Google发布了Gemma4系列模型。一个自然的想法冒了出来：既然云端Token在流血，为什么不把模型搬到本地，彻底绕开这个问题？关于Gemma4系列：为什么选26BA4BGoogle这次一口气发布了四个版本：E2B、E4B、31B和26BA4B。四个核心矛盾，一个都绕不开把所有问题归纳一下，本地Gemma4跑ClaudeCode面临的核心瓶颈其实就四条：系统提示溢出：ClaudeCode的系统提示词高达29000+Token，直接逼近甚至超出本地模型的上下文上限虽然跑ClaudeCode不太现实，但本地Gemma4在以下场景下表现完全合格：轻量级AI对话工具（如OpenClaw等）：系统提示短小、上下文可控，本地模型游刃有余单轮问答和代码片段生成：不涉及长上下文累积
2.3K41编辑于 2026-04-08
来自专栏福大大架构师每日一题
ollama v0.30.7 正式发布：Hermes 桌面端落地，接口、文档、底层依赖全方位优化
模型下载指令：ollama pull gemma3 修改为 ollama pull gemma4； 4. 模型删除指令：ollama rm gemma3 修改为 ollama rm gemma4； 5. 自定义模型 Modelfile 模板：模板内 FROM gemma3 修改为 FROM gemma4； 6. API 入门文档：基础 generate 接口的 curl 请求示例，模型字段替换为 gemma4； 2. 结构化输出文档：Python 结构化输出示例中的模型参数，同步替换为 gemma4。
20510编辑于 2026-06-12
全球LLM大模型客户端体验深度测评（三）：本地部署开源大模型三足鼎立（截至2026年4月）
三大家开源模型定位速览表厂商代表模型系列许可证类型参数量范围核心设计哲学GoogleGemmaGemma3(2025)/Gemma4(2026.04)GemmaTerms/Apache2.02B~31B 2026年4月初最新发布的Gemma4更是将Apache2.0协议带入其中。多模态能力良好Gemma4原生引入视觉与音频，但在复杂图像推理上仍落后于百亿级视觉专精模型。国内用户群体画像适合极客开发者、边缘计算硬件玩家、以及重度依赖代码辅助和学术英文写作的用户。多模态应用1.Qwen-VL/Omni2.Llama43.Gemma4Qwen的图文识别在开源界卷到极致；Llama4原生融合底子好；Gemma4新入局。如果你是硬件受限的游击队（仅有游戏本或单卡），或是执着于极客效率的独立开发者，Gemma4是你的精密手术刀。它证明了模型能力并非只靠参数堆砌，知识蒸馏的魔法依然奏效。
96610编辑于 2026-05-06
来自专栏福大大架构师每日一题
ollama v0.30.5 更新：Hermes Desktop 上线、Windows 安装优化、Gemma4 崩溃修复、Cline CLI 集成文档全量补齐
修复 gemma4:12b 的浮点异常崩溃 2. Hermes 在 Windows 上的安装流程优化 3. 新增 Hermes Desktop 集成 4. 二、核心修复：修复 gemma4:12b 浮点异常崩溃这次更新最关键的修复之一，是： • Fix gemma4:12b floating point exception crash 这意味着在特定情况下，gemma4:12b 可能出现浮点异常崩溃，而 v0.30.5 已经针对这个问题进行了修复。对于使用 gemma4:12b 的场景，这次更新是一次必须重视的稳定性升级。三、Hermes 相关更新：Windows 安装体验明显增强这次版本中，Hermes 是绝对重点。 1. 稳定性提升修复了 gemma4:12b 的浮点异常崩溃问题，直接改善模型运行稳定性。 2.
24510编辑于 2026-06-08
来自专栏Java实战博客
自建Sub2API – Ollama 自建大模型API管理页 – AI IDE – CodeX使用本地模型
我是Mac M3 Max 48G内存，我可以本地跑 Gemma4:26b。所以我提前搞好了，可以只直接启动。 host.docker.internal 所以我们填写地址： http://host.docker.internal:11434/v1 注意需要我们添加一个映射左边的是对外看的是gpt5.4，右边实际执行的是gemma4
7.3K30编辑于 2026-04-20
最新 Claude Code Desktop 支持配置第三方大模型了
Developer → Configure Third-Party Inference选择 Gateway 模式，填写第三方 Gateway base URL 和 API KEY 我这里填 Ollama 部署的 gemma4
15.7K191编辑于 2026-04-30
来自专栏仙踪·智能助手
刚发布的 Gemma4 12B 能打吗？三款最新顶流开源模型跑分全解读，堪比跟去年主流闭源模型
3B85.286.092.773.4ClaudeSonnet4闭源85.4(标准MMLU)70.033.172.7GPT-4.1闭源90.2(标准MMLU)66.348.1(2024版)54.6注：Qwen3.6分数引自社区独立评测，Gemma4 Gemma4系列暂缺SWE-bench数据，可能是由于SWE-bench测评的争议。发现四：刚发布的Gemma412B，小身材咬得很紧。
4700编辑于 2026-06-13
Gemma-4-31B-it到底强在哪：从 vLLM 启动到 OpenCode 接入，我把整条链路跑通了
原因很直接：旧环境即使经过一定升级，也容易在 Gemma 4 上出现以下问题：gemma4 架构识别失败；Transformers 版本不兼容；fallback 到 Transformers backend max-model-len 32288 \ --gpu-memory-utilization 0.90 \ --enable-auto-tool-choice \ --tool-call-parser gemma4 \ --reasoning-parser gemma4 \ --host 0.0.0.0 \ --port 8000这里需要解释几个关键参数：--served-model-name gemma- max-model-len 12288 \ --gpu-memory-utilization 0.85 \ --enable-auto-tool-choice \ --tool-call-parser gemma4 \ --reasoning-parser gemma4 \ --host 0.0.0.0 \ --port 8000我自己的建议做法是先从能稳定启动的配置开始，再逐步增加上下文长度，而不是像我一样一开始就把参数拉到最大
2.5K50编辑于 2026-04-14
来自专栏福大大架构师每日一题
DeepSpeed v0.19.1 版本更新：性能优化、稳定性修复与关键功能增强全解析
稳定性修复包括： • 修复 FastFileWriter aio_fd 泄漏 • 修复 ZeRO-3 forward crash • 修复 test_zf.py hang • 修复 gemma4 attention 17. fix gemma4 num attention head bugs 这是针对 gemma4 的 attention head 数量 bug 修复。使用 attention 加速的用户你会关心： • EvoformerAttention 自动检测 CUTLASS • FPDT attention 支持 flash-attn 2.7.0 • gemma4
14610编辑于 2026-05-29
来自专栏Zabbix中国官方
Hermes agent+本地大模型，让Zabbix听懂人话
本文档详细介绍如何通过LM Studio调用本地部署的Google Gemma4开源大模型，配置Hermes agent，实现对Zabbix监控系统的智能化操作，提升运维管理效率。七、结语基于配置启用Gemma4模型的Hermes agent，实现对 Zabbix监控系统的智能化查询、主机自动添加和性能数据导出。
67810编辑于 2026-05-13
来自专栏软件安装
Gemma 4手机部署教程，超简单！
Gemma4的模型如以下但PocketPal AI只支持以下模型。可以根据自己的手机实际情况选择对应的模型。例如蒸馏后的 Gemma 4 其实只有 6GB 的空间，和游戏比起来还是很小的。
2.3K80编辑于 2026-04-13
来自专栏福大大架构师每日一题
ollama v0.24.0 更新：Codex App 正式接入、内置浏览器、评审模式与 MLX 采样器重构，带来哪些变化？
5.2 面向本地使用、且没有 Ollama Cloud 订阅时的推荐如果你希望本地使用，并且没有 Ollama Cloud 订阅，官方推荐： • nemotron-3-super • gemma4:31b 8.2 5月5日 • MLX：Gemma4 的 MTP speculative decoding 这里体现了推理策略的进一步优化。
74510编辑于 2026-05-20
周一上线｜Hexo 一夜丢了 40K Star，DeepSeek TUI 遭遇假仓库；AI 公司一边裁员一边融资
Google给Gemma4加了MTPdrafter，推理速度最高提升3倍Google为Gemma4发布了MTP**drafter，也就是Multi-TokenPredictiondrafter。相关介绍里提到，Gemma4使用MTPdrafter后，推理速度最高可提升3倍，输出质量保持不变。Cursor支持自动修CI失败Cursor现在可以自动修复CI失败。
30610编辑于 2026-05-11

第 2 页

ollama v0.21.0 最新更新：Hermes Agent 与 Ollama 联动、Copilot CLI 集成、launch 配置优化、Gemma4 与 MLX 多项性能修复全解析

31B参数打败20倍体量的对手——Google Gemma 4凭什么让开源圈炸了？

LlamaFactory v0.9.5 发布：Qwen3.5/Qwen3.6/Gemma4 全面支持，Transformers v5 兼容性正式到位

48小时连发5款大模型，2026年AI圈的卷法已经超出你想象

云端MoE vs 本地Dense：DeepSeek与Gemma4 26B的选题策划能力量化对比评测

MLX 性能大幅提升， Gemma4 闪光注意力全面启用

OpenClaw + 离线 Gemma 4：省Token，保隐私

本地跑 Gemma 4 替代 Claude Code？M4 Max 实测告诉你为什么行不通

ollama v0.30.7 正式发布：Hermes 桌面端落地，接口、文档、底层依赖全方位优化

全球LLM大模型客户端体验深度测评（三）：本地部署开源大模型三足鼎立（截至2026年4月）

ollama v0.30.5 更新：Hermes Desktop 上线、Windows 安装优化、Gemma4 崩溃修复、Cline CLI 集成文档全量补齐

自建Sub2API – Ollama 自建大模型API管理页 – AI IDE – CodeX使用本地模型

最新 Claude Code Desktop 支持配置第三方大模型了

刚发布的 Gemma4 12B 能打吗？三款最新顶流开源模型跑分全解读，堪比跟去年主流闭源模型

Gemma-4-31B-it到底强在哪：从 vLLM 启动到 OpenCode 接入，我把整条链路跑通了

DeepSpeed v0.19.1 版本更新：性能优化、稳定性修复与关键功能增强全解析

Hermes agent+本地大模型，让Zabbix听懂人话

Gemma 4手机部署教程，超简单！

ollama v0.24.0 更新：Codex App 正式接入、内置浏览器、评审模式与 MLX 采样器重构，带来哪些变化？

周一上线｜Hexo 一夜丢了 40K Star，DeepSeek TUI 遭遇假仓库；AI 公司一边裁员一边融资

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

ollama v0.21.0 最新更新：Hermes Agent 与 Ollama 联动、Copilot CLI 集成、launch 配置优化、Gemma4 与 MLX 多项性能修复全解析

31B参数打败20倍体量的对手——Google Gemma 4凭什么让开源圈炸了？

LlamaFactory v0.9.5 发布：Qwen3.5/Qwen3.6/Gemma4 全面支持，Transformers v5 兼容性正式到位

48小时连发5款大模型，2026年AI圈的卷法已经超出你想象

云端MoE vs 本地Dense：DeepSeek与Gemma4 26B的选题策划能力量化对比评测

MLX 性能大幅提升 ， Gemma4 闪光注意力全面启用

OpenClaw + 离线 Gemma 4：省Token，保隐私

本地跑 Gemma 4 替代 Claude Code？M4 Max 实测告诉你为什么行不通

ollama v0.30.7 正式发布：Hermes 桌面端落地，接口、文档、底层依赖全方位优化

全球LLM大模型客户端体验深度测评（三）：本地部署开源大模型三足鼎立（截至2026年4月）

ollama v0.30.5 更新：Hermes Desktop 上线、Windows 安装优化、Gemma4 崩溃修复、Cline CLI 集成文档全量补齐

自建Sub2API – Ollama 自建大模型API管理页 – AI IDE – CodeX使用本地模型

最新 Claude Code Desktop 支持配置第三方大模型了

刚发布的 Gemma4 12B 能打吗？三款最新顶流开源模型跑分全解读，堪比跟去年主流闭源模型

Gemma-4-31B-it到底强在哪：从 vLLM 启动到 OpenCode 接入，我把整条链路跑通了

DeepSpeed v0.19.1 版本更新：性能优化、稳定性修复与关键功能增强全解析

Hermes agent+本地大模型，让Zabbix听懂人话

Gemma 4手机部署教程，超简单！

ollama v0.24.0 更新：Codex App 正式接入、内置浏览器、评审模式与 MLX 采样器重构，带来哪些变化？

周一上线｜Hexo 一夜丢了 40K Star，DeepSeek TUI 遭遇假仓库；AI 公司一边裁员一边融资

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

MLX 性能大幅提升， Gemma4 闪光注意力全面启用