LiteRT-LM：谷歌把端侧大模型这件事，往前推了一大截

文章来源：企鹅号 - Java面试那些事儿

我刚看到LiteRT-LM这个项目时，先停在了一句话上。

不是模型参数，不是跑分，是“可以直接在 iPhone 上本地跑起来”。

这句话现在看着已经不算新鲜了，但真点进去翻两眼，还是会意识到一件事：很多人嘴上说端侧 AI，手上做的其实还是云端调用。界面在本地，脑子在远端。网络一断，体验也跟着断。

LiteRT-LM 想补的，就是这块。

它是谷歌开源的一套端侧大模型推理框架，名字不算抓人，思路倒很直接：把模型真正塞进设备里跑，而且尽量别把平台切得七零八落。Android、iOS、桌面、Web，甚至树莓派，都在它的覆盖范围里。

我盯着这个设定看了几秒，感觉它有意思的地方不只是“能跑”。

而是你不用再把“端侧部署”理解成某种演示性质的技术秀了。不是为了拍个 demo 证明手机也能吐字，而是朝着能落进真实产品形态的底座去做。谷歌提到，这套东西已经在 Chrome、Pixel Watch 这些产品里经过了大规模验证。看到这里，大概就知道它不是实验室玩具。

再往下翻，另一个点也很实在。

它不是只绑死 Gemma 4。

Gemma 能跑，Llama、Qwen 这些主流模型也兼容。这个口子一开，开发者就不会被迫站队。你可以先拿熟一点的模型试端侧效果，再考虑性能、尺寸、能力之间怎么取舍。很多框架卡就卡在这里，嘴上说开放，实际上只能围着自家模型转。

LiteRT-LM 至少没有把路走窄。

还有个细节我觉得比“多平台”更容易被低估：它把命令行工具也做了，甚至可以不写代码，直接在终端把模型拉起来试。

这件事听着不大，但很影响扩散速度。

因为真正拦住很多人的，不是推理框架本身有多难，而是第一步太重。要配环境，要接接口，要改一堆样例，最后模型还没跑起来，耐心先耗没了。现在你可以先把模型在本机拉起来，感受一下速度、占用、交互，再决定要不要往产品里接。

这种入口，决定了它更像“能被用”的基础设施，而不是“能被介绍”的基础设施。

功能层面它也没只停在聊天。

视觉、音频这些多模态输入都支持，函数调用也带上了。也就是说，端侧不只是跑一个会回复文字的模型，而是有机会往更完整的智能体工作流上接。拍一张图、本地理解、再触发动作，整个链路都可以尽量留在设备里。

这件事的价值，不用讲太满。

你把模型放在用户设备上，响应、隐私、离线可用性，很多体验上的别扭会一起变少。尤其是那些不能一直依赖联网、或者不适合把数据往云上送的场景，端侧推理不是加分项，是前提。

当然，端侧这条路也不会因为一个框架就突然变轻松。模型大小、功耗、延迟、硬件碎片化，这些账都还得一笔一笔算。

但 LiteRT-LM 至少把一件事做清楚了：让“大模型上设备”这件事，从概念往工程落了一层。

不是只告诉你可以。

而是把工具、兼容性、入口和产品验证，一起摆出来了。

相关快讯