
过去一年,大模型的技术叙事几乎被“更大、更强、更贵”占满。
但真正让我意识到“技术范式正在改变”的,是一个看似不起眼的项目:Gemma Gem。
它没有服务器,没有后端,没有 API Key。
它把一个完整的 Gemma 4 模型塞进浏览器,用 WebGPU 推理,用扩展权限操作网页,用本地算力跑 Agent Loop。

这不是“模型升级”,这是 运行时革命。
Gemma Gem 的意义不在于“能跑”,而在于它第一次让我们看到: AI 不必依赖云,它可以成为浏览器的一部分。
要理解 Gemma Gem 的技术突破,必须先理解一个事实:
浏览器已经不是浏览器了,它是一个跨平台 GPU Runtime。
WebGPU 的出现,让浏览器第一次具备了“可控、可编程、可高性能”的 GPU 计算能力。
这意味着:
Gemma Gem 正是基于 WebGPU,把 Gemma 4 的 E2B / E4B 量化模型直接加载到浏览器内存中。

你可以把它理解为: 浏览器 = 轻量版 ONNX Runtime + 沙盒化的操作系统。
这也是为什么它能做到完全本地推理。
Gemma Gem 的架构非常优雅,甚至可以说是“浏览器 Agent 的标准答案”。
这是整个系统的“大脑”。 它负责:
它运行在一个不可见的文档环境中,避免阻塞 UI,同时保持独立的执行上下文。
它是整个系统的“消息路由器”,负责:
它让模型与网页之间的通信变得可控、可追踪、可扩展。
这是 Gemma Gem 的“手脚”。 它直接注入网页,负责:
这让模型第一次拥有了“真实的网页操作能力”。
Gemma Gem 内置了一套完整的工具系统(全部本地执行),包括:
这套工具让模型具备了“浏览器自动化能力”,而不是只能“看不见网页地聊天”。

换句话说: Gemma Gem = 本地推理 + 浏览器自动化 + Agent Loop。
这是一个完整的“浏览器 AI Runtime”。
核心原因有三个:
Gemma 4 的轻量模型:
首次加载后会缓存到浏览器,之后几乎秒开。
现代 GPU(包括集显)都能跑 4bit 量化模型。
Chrome 扩展可以:
这让浏览器第一次具备了“AI 运行环境”的全部条件。
Gemma Gem 的出现,标志着一个关键趋势:
AI 正在从“云端时代”进入“本地时代”。
这意味着:
数据不再上传,所有推理都在本地完成。
不需要服务器,不需要 API Key,不需要付费。
浏览器成为 AI Runtime,而不是网页渲染器。
AI 不再是“语言模型”,而是“可操作网页的自动化系统”。
Gemma Gem 只是开始,接下来你会看到:
甚至可以预见: 未来的 AI 应用,不再需要服务器。 浏览器就是服务器。 用户就是算力。
Gemma Gem 不是一个“好玩的项目”,它是一个“技术方向的信号”。
它告诉我们: AI 的未来,不一定在云端,也不一定在平台,而可能在每个人的浏览器里。
当模型足够小、推理足够快、浏览器足够强,
AI 的运行方式就会被彻底重写。
而 Gemma Gem,就是这场重写的开始。