LiteRT-LM：谷歌想把大模型这件事，真的塞进手机和浏览器里

文章来源：企鹅号 - Java面试那些事儿

我刚看到 LiteRT-LM 这个项目时，先停住的不是它支持多少模型。

而是那种很具体的画面：Gemma 4 直接在 iPhone 上跑，本地推理，不走云，不等接口，也不用担心网络一断整套能力跟着失灵。

这一下就不是“端侧 AI”那种熟悉的概念词了。

是你真能把模型扔进设备里，让它在用户手上自己转起来。

我点进去看了下，LiteRT-LM 做的事情也不复杂，它没有试图重新定义什么工作流，而是把一件原本很散、很碎、很容易卡在工程细节里的事，往前推了一大步：把大模型部署到 Android、iOS、桌面、Web，甚至树莓派这类设备上，而且尽量别让你从头自己拼底座。

这类项目以前也有，但很多都停在“能跑”。

演示可以，落地总差一截。要么模型适配麻烦，要么平台一换就得重做，要么多模态一接进来整条链子就开始变形。

LiteRT-LM 给我的感觉，是它不太想只解决 demo 阶段的问题。

它直接把 Gemma、Llama、Qwen 这些主流模型都兼容了。你不需要先在选型上赌死一家，再为某个特定模型写一堆专门逻辑。这个对端侧开发很重要，因为真到产品里，模型经常不是一次定终身的，今天跑这个，明天就可能因为延迟、体积、授权、效果换另一个。

底座不跟着变来变去，后面很多事才有得做。

另一个我多看了几眼的点，是它不只是跑文本。

视觉、音频这些多模态输入也能接，函数调用也给了。这就很像真实场景里会碰到的那类需求：用户拍一张图，丢一段语音，让模型先理解，再顺手调用本地能力或者某个工具链，把任务接着做下去。

很多人提智能体，脑子里还是云端 API 编排。

但如果模型本身就在设备上，很多动作其实可以更贴近用户当下那个瞬间。拿起手机就处理，当场返回，不必每次都把请求送出去再等它回来。

我还挺在意它那个无需写代码的命令行工具。

这不是最炫的卖点，但很现实。很多端侧框架的问题不是“能力没有”，而是第一次上手太重，刚装完环境就劝退一半人。LiteRT-LM 至少把这件事往顺手的方向推了推，你可以先在终端里把模型拉起来，先看它跑，再决定要不要往产品里塞。

这种路径就对了。

先把体验立住，再谈集成。

还有个细节不能忽略：这套东西不是实验室里刚拼出来的样板，它背后那套底座，已经在 Chrome、Pixel Watch 这些真实产品里跑过大规模场景了。

看到这里，我大概明白它为什么值得留意。

不是因为“谷歌又开源了一个新项目”，而是它试图补的，正好是端侧大模型现在最容易断掉的那一层：从模型能跑，到模型能进产品，中间那块又脏又累但必须有人做的工程地基。

Gemma 4 能在 iPhone 上本地跑起来，这件事本身已经很有画面了。

LiteRT-LM 则是在补另外半句：不只是能跑一次，而是要让 Android、iOS、Web、桌面这些设备，都有一套尽量统一的方式把模型接进去。

这才是更麻烦，也更值钱的部分。

相关快讯