根据模型大小不同进行不同渲染 更新项: gemma4: render differently based on model size 这条说明 Gemma4 的渲染逻辑会根据模型大小采用不同方式。 Gemma4 cache 使用 logical view 更新项: mlx: fix gemma4 cache to use logical view 这条说明在 MLX 相关模块中修复了 Gemma4 5. additional Gemma4 cache fixes 更新项: mlx: additional gemma4 cache fixes 这条继续补充了 Gemma4 cache 的修复工作,说明相关问题不止一处 提升 gemma4 的 fused operations 性能 更新项: mlx: Improve gemma4 performance with fused operations 这一条进一步表明,Gemma4 进一步修复 Gemma4 cache 逻辑 前文已经提到: • mlx: fix gemma4 cache to use logical view • mlx: additional gemma4 cache
大家好,我是摘星,今天我们来聊聊Google刚放出的这个"怪物"——Gemma4。 二、Gemma4架构全景:密集型+MoE双轨并行Gemma4最让我感兴趣的设计,是它同时采用了两种截然不同的架构路线,而不是像很多模型那样"一招走天下"。 蒸馏技术:Gemma4基于Gemini3技术,而Gemini3本身是一个参数量远大于31B的闭源模型。Gemma4很可能是从Gemini3蒸馏而来的,继承了教师模型的大量知识。 Gemma4支持Ollama和vLLM两种主流部署方案,下面分别给出具体步骤。7.1用Ollama本地运行Gemma4(适合个人开发者)Ollama是大模型本地部署最简单的方式,一行命令就能跑起来。 十、我的看法:Gemma4的真正意义写到这里,我想跳出技术细节,聊聊Gemma4对整个行业的意义。首先,Gemma4证明了"参数效率"正在成为新的竞争焦点。
从这次更新说明来看,v0.9.5 的核心方向非常明确:新增对 Qwen3.5、Qwen3.6、Gemma4 的主力支持,并完成对 Transformers v5 的兼容适配。 1、版本核心亮点:Qwen3.5 / Qwen3.6 / Gemma4 + Transformers v5 v0.9.5 最醒目的升级,就是在版本标题中直接点明了两件事: • Added primary 4、Gemma4 支持落地,并补齐多模态细节 除了 Qwen3.5/3.6,Gemma4 也是本版本标题级重点。 对应更新包括: • gemma4 • fix gemma4 mm_token_type_ids padding • fix projector lookup for gemma4 modules 这说明 Gemma4 的支持并不仅是模型入口层面的接入,还包括多模态 token 类型、padding 细节以及 projector 模块检索修复。
二、Gemma4:谷歌的"开源核弹"2.1为什么说Gemma4是开源领域的一次地震谷歌对Gemma系列的定位一直很明确——把Gemini的能力"平民化"。 Gemma4这次一口气出了四个版本,直接把能力拉到了商用级别。 2.2多语言是杀手锏Gemma4基于超过140种语言训练,其中35种以上可以直接使用。这个覆盖面在开源模型中几乎没有对手。 趋势一:MoE架构从小众走向主流Gemma4的26B版本、以及之前DeepSeek-V3的671B版本,都采用了MoE架构。 趋势三:多模态从"能力"变成"标配"五款模型中有三款原生支持多模态——Gemma4(图像/视频/音频)、GLM-5V-Turbo(图像/视频)、Phi-4-Vision(图像)。
在热点数据层面,Gemma4对来源和热度信息的标注较为笼统。它提到了知乎、微博、抖音等平台,但没有给出具体的排名或热度数值。 在主题提炼能力上,Gemma4表现出了明显的"概念升华"倾向。它不是围绕单条热点做发散,而是将多条相关热点归并到同一个概念框架下。 在立意深度层面,Gemma4产出的"外挂大脑"概念(将AIAgent定位为"接管琐碎工作以缓解心理内耗"的辅助工具),是一个比较有创意的类比。 Gemma4的转化路径则更为迂回。同样涉及本地部署的内容,Gemma4提出的切入点是"软件定义智能""性能压榨"这类需要读者花更多认知成本理解的概念。 如果追求账号调性建设和深度内容,Gemma4提供了更丰富的概念素材。两者的互补特征足够明显,融合使用能够形成质量更高的输出。
底层推理加速优化:MLX框架M5性能提升、Gemma4闪光注意力启用与兼容修复 2. 模型创建流程重构:实验性路径清理、Safetensors模型导入修复与逻辑简化 3. (二)Gemma4模型全面支持:闪光注意力启用与兼容修复 Gemma4作为新一代轻量级高性能大模型,在ollama v0.20.4中获得完整支持,核心更新包括两项: 1. ,在GGML底层代码中完成配置注册,使Gemma4模型在支持的GPU平台上自动开启闪光注意力加速。 同时,本次更新还补充了Gemma4相关缺失文件,完善模型加载依赖,解决了此前版本中Gemma4模型加载失败、配置缺失的问题,实现从模型加载到推理运行的全流程稳定支持。 硬件性能进一步释放 MLX M5优化与Gemma4闪光注意力启用,使苹果芯片用户获得更高推理速度,老旧GPU也能稳定运行新型模型。 2.
baseUrl":"http://IP_address:11434", "apiKey":"ollama-local", "api":"ollama", "models":[ { "id":"gemma4 :e2b", "name":"gemma4:e2b", "reasoning":false, "input":["text"], "cost":{ input:0, output:0, cacheRead , "maxTokens":1000 } ] } } } Agent模型配置: "agents":{ "defaults":{ "model":{ "primary":"ollama/gemma4 :e2b" }, "models":{ "ollama/gemma4:e2b":{} } } } 两个关键点,容易翻车的地方 contextWindow 和 maxTokens:一开始可以设小一点
JeecgBootAI专题研究|谷歌Gemma4本地部署对接ClaudeCode的完整踩坑实录与性能分析起因:ClaudeCode的Token黑洞事件2026年4月前���,ClaudeCode社区炸了锅 正巧赶上2026年3月31日,Google发布了Gemma4系列模型。一个自然的想法冒了出来:既然云端Token在流血,为什么不把模型搬到本地,彻底绕开这个问题? 关于Gemma4系列:为什么选26BA4BGoogle这次一口气发布了四个版本:E2B、E4B、31B和26BA4B。 四个核心矛盾,一个都绕不开把所有问题归纳一下,本地Gemma4跑ClaudeCode面临的核心瓶颈其实就四条:系统提示溢出:ClaudeCode的系统提示词高达29000+Token,直接逼近甚至超出本地模型的上下文上限 虽然跑ClaudeCode不太现实,但本地Gemma4在以下场景下表现完全合格:轻量级AI对话工具(如OpenClaw等):系统提示短小、上下文可控,本地模型游刃有余单轮问答和代码片段生成:不涉及长上下文累积
模型下载指令:ollama pull gemma3 修改为 ollama pull gemma4; 4. 模型删除指令:ollama rm gemma3 修改为 ollama rm gemma4; 5. 自定义模型 Modelfile 模板:模板内 FROM gemma3 修改为 FROM gemma4; 6. API 入门文档:基础 generate 接口的 curl 请求示例,模型字段替换为 gemma4; 2. 结构化输出文档:Python 结构化输出示例中的模型参数,同步替换为 gemma4。
三大家开源模型定位速览表厂商代表模型系列许可证类型参数量范围核心设计哲学GoogleGemmaGemma3(2025)/Gemma4(2026.04)GemmaTerms/Apache2.02B~31B 2026年4月初最新发布的Gemma4更是将Apache2.0协议带入其中。 多模态能力良好Gemma4原生引入视觉与音频,但在复杂图像推理上仍落后于百亿级视觉专精模型。国内用户群体画像适合极客开发者、边缘计算硬件玩家、以及重度依赖代码辅助和学术英文写作的用户。 多模态应用1.Qwen-VL/Omni2.Llama43.Gemma4Qwen的图文识别在开源界卷到极致;Llama4原生融合底子好;Gemma4新入局。 如果你是硬件受限的游击队(仅有游戏本或单卡),或是执着于极客效率的独立开发者,Gemma4是你的精密手术刀。它证明了模型能力并非只靠参数堆砌,知识蒸馏的魔法依然奏效。
修复 gemma4:12b 的浮点异常崩溃 2. Hermes 在 Windows 上的安装流程优化 3. 新增 Hermes Desktop 集成 4. 二、核心修复:修复 gemma4:12b 浮点异常崩溃 这次更新最关键的修复之一,是: • Fix gemma4:12b floating point exception crash 这意味着在特定情况下 ,gemma4:12b 可能出现浮点异常崩溃,而 v0.30.5 已经针对这个问题进行了修复。 对于使用 gemma4:12b 的场景,这次更新是一次必须重视的稳定性升级。 三、Hermes 相关更新:Windows 安装体验明显增强 这次版本中,Hermes 是绝对重点。 1. 稳定性提升 修复了 gemma4:12b 的浮点异常崩溃问题,直接改善模型运行稳定性。 2.
我是Mac M3 Max 48G内存,我可以本地跑 Gemma4:26b。所以我提前搞好了,可以只直接启动。 host.docker.internal 所以我们填写地址: http://host.docker.internal:11434/v1 注意需要我们添加一个映射 左边的是对外看的是gpt5.4,右边实际执行的是gemma4
Developer → Configure Third-Party Inference选择 Gateway 模式,填写第三方 Gateway base URL 和 API KEY 我这里填 Ollama 部署的 gemma4
3B85.286.092.773.4ClaudeSonnet4闭源85.4(标准MMLU)70.033.172.7GPT-4.1闭源90.2(标准MMLU)66.348.1(2024版)54.6注:Qwen3.6分数引自社区独立评测,Gemma4 Gemma4系列暂缺SWE-bench数据,可能是由于SWE-bench测评的争议。发现四:刚发布的Gemma412B,小身材咬得很紧。
原因很直接:旧环境即使经过一定升级,也容易在 Gemma 4 上出现以下问题:gemma4 架构识别失败;Transformers 版本不兼容;fallback 到 Transformers backend max-model-len 32288 \ --gpu-memory-utilization 0.90 \ --enable-auto-tool-choice \ --tool-call-parser gemma4 \ --reasoning-parser gemma4 \ --host 0.0.0.0 \ --port 8000这里需要解释几个关键参数:--served-model-name gemma- max-model-len 12288 \ --gpu-memory-utilization 0.85 \ --enable-auto-tool-choice \ --tool-call-parser gemma4 \ --reasoning-parser gemma4 \ --host 0.0.0.0 \ --port 8000我自己的建议做法是先从能稳定启动的配置开始,再逐步增加上下文长度,而不是像我一样一开始就把参数拉到最大
稳定性修复 包括: • 修复 FastFileWriter aio_fd 泄漏 • 修复 ZeRO-3 forward crash • 修复 test_zf.py hang • 修复 gemma4 attention 17. fix gemma4 num attention head bugs 这是针对 gemma4 的 attention head 数量 bug 修复。 使用 attention 加速的用户 你会关心: • EvoformerAttention 自动检测 CUTLASS • FPDT attention 支持 flash-attn 2.7.0 • gemma4
本文档详细介绍如何通过LM Studio调用本地部署的Google Gemma4开源大模型,配置Hermes agent,实现对Zabbix监控系统的智能化操作,提升运维管理效率。 七、结语 基于配置启用Gemma4模型的Hermes agent,实现对 Zabbix监控系统的智能化查询、主机自动添加和性能数据导出。
Gemma4的模型如以下 但PocketPal AI只支持以下模型。 可以根据自己的手机实际情况选择对应的模型。 例如蒸馏后的 Gemma 4 其实只有 6GB 的空间,和游戏比起来还是很小的。
5.2 面向本地使用、且没有 Ollama Cloud 订阅时的推荐 如果你希望本地使用,并且没有 Ollama Cloud 订阅,官方推荐: • nemotron-3-super • gemma4:31b 8.2 5月5日 • MLX:Gemma4 的 MTP speculative decoding 这里体现了推理策略的进一步优化。
Google给Gemma4加了MTPdrafter,推理速度最高提升3倍Google为Gemma4发布了MTP**drafter,也就是Multi-TokenPredictiondrafter。 相关介绍里提到,Gemma4使用MTPdrafter后,推理速度最高可提升3倍,输出质量保持不变。Cursor支持自动修CI失败Cursor现在可以自动修复CI失败。