首页
学习
活动
专区
圈层
工具
发布

LiteRT-LM:谷歌把端侧大模型这件事,往前推了一大截

我刚看到LiteRT-LM这个项目时,先停在了一句话上。

不是模型参数,不是跑分,是“可以直接在 iPhone 上本地跑起来”。

这句话现在看着已经不算新鲜了,但真点进去翻两眼,还是会意识到一件事:很多人嘴上说端侧 AI,手上做的其实还是云端调用。界面在本地,脑子在远端。网络一断,体验也跟着断。

LiteRT-LM 想补的,就是这块。

它是谷歌开源的一套端侧大模型推理框架,名字不算抓人,思路倒很直接:把模型真正塞进设备里跑,而且尽量别把平台切得七零八落。Android、iOS、桌面、Web,甚至树莓派,都在它的覆盖范围里。

我盯着这个设定看了几秒,感觉它有意思的地方不只是“能跑”。

而是你不用再把“端侧部署”理解成某种演示性质的技术秀了。不是为了拍个 demo 证明手机也能吐字,而是朝着能落进真实产品形态的底座去做。谷歌提到,这套东西已经在 Chrome、Pixel Watch 这些产品里经过了大规模验证。看到这里,大概就知道它不是实验室玩具。

再往下翻,另一个点也很实在。

它不是只绑死 Gemma 4。

Gemma 能跑,Llama、Qwen 这些主流模型也兼容。这个口子一开,开发者就不会被迫站队。你可以先拿熟一点的模型试端侧效果,再考虑性能、尺寸、能力之间怎么取舍。很多框架卡就卡在这里,嘴上说开放,实际上只能围着自家模型转。

LiteRT-LM 至少没有把路走窄。

还有个细节我觉得比“多平台”更容易被低估:它把命令行工具也做了,甚至可以不写代码,直接在终端把模型拉起来试。

这件事听着不大,但很影响扩散速度。

因为真正拦住很多人的,不是推理框架本身有多难,而是第一步太重。要配环境,要接接口,要改一堆样例,最后模型还没跑起来,耐心先耗没了。现在你可以先把模型在本机拉起来,感受一下速度、占用、交互,再决定要不要往产品里接。

这种入口,决定了它更像“能被用”的基础设施,而不是“能被介绍”的基础设施。

功能层面它也没只停在聊天。

视觉、音频这些多模态输入都支持,函数调用也带上了。也就是说,端侧不只是跑一个会回复文字的模型,而是有机会往更完整的智能体工作流上接。拍一张图、本地理解、再触发动作,整个链路都可以尽量留在设备里。

这件事的价值,不用讲太满。

你把模型放在用户设备上,响应、隐私、离线可用性,很多体验上的别扭会一起变少。尤其是那些不能一直依赖联网、或者不适合把数据往云上送的场景,端侧推理不是加分项,是前提。

当然,端侧这条路也不会因为一个框架就突然变轻松。模型大小、功耗、延迟、硬件碎片化,这些账都还得一笔一笔算。

但 LiteRT-LM 至少把一件事做清楚了:让“大模型上设备”这件事,从概念往工程落了一层。

不是只告诉你可以。

而是把工具、兼容性、入口和产品验证,一起摆出来了。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O6c1isnzxL9p6YUWu0O7zE4Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券