用普通笔记本跑大模型，不再是梦

文章来源：企鹅号 - AI可可AI生活

快速阅读：Google的TurboQuant算法被移植进llama.cpp后，MacBook Air（M4， 16GB）终于能在20000 tokens上下文下运行Qwen 3.5-9B，而此前直接崩溃。这不是什么颠覆，但确实把“不可能”变成了“可以接受的慢”。

一台最便宜的MacBook Air，能跑20000 tokens上下文的9B模型，而且不崩溃。

这就是TurboQuant带来的变化。Google这个压缩算法的核心思路不是直接暴力压缩数据，而是改变数据的存储格式，让KV缓存用极坐标（角度）而非直角坐标来表示，顺带去掉了传统量化方案里必须附带的精度校正常数，还加了1bit错误修正。普通的q4量化相当于把一张全彩图片强行降成16色，TurboQuant更接近视觉无损压缩，模型“看起来”还是原来那张图。

有网友测试后指出，同等bit数下TurboQuant比llama.cpp原生的KV cache量化质量更好，尤其在3bit时差距明显。至于有多接近无损，Google官方说90%以上，实测结果众说纷纭，差距基本在噂1%级别。

目前TurboQuant还没合并进llama.cpp主线，不过社区已经有可编译的实现，有网友预测本周内就能进主分支。MLX版本在路线图末端，不过已经有人提前做了PR。

20000 tokens对于真正的AI agent来说其实还很小，Claude Code的系统提示就有12k。本地设备离长上下文代理仍有距离，只是这个距离，今年开始以肉眼可见的速度在缩短。

ref: www.reddit.com/r/LocalLLaMA/comments/1s5kdu0/google_turboquant_running_qwen_locally_on_macair

发表于: 2026-03-282026-03-28 17:55:13
原文链接：https://page.om.qq.com/page/OQhYsHuFDurZkXy3O3CrhgIQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

用普通笔记本跑大模型，不再是梦

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐