快速阅读:Google的TurboQuant算法被移植进llama.cpp后,MacBook Air(M4, 16GB)终于能在20000 tokens上下文下运行Qwen 3.5-9B,而此前直接崩溃。这不是什么颠覆,但确实把“不可能”变成了“可以接受的慢”。
一台最便宜的MacBook Air,能跑20000 tokens上下文的9B模型,而且不崩溃。
这就是TurboQuant带来的变化。Google这个压缩算法的核心思路不是直接暴力压缩数据,而是改变数据的存储格式,让KV缓存用极坐标(角度)而非直角坐标来表示,顺带去掉了传统量化方案里必须附带的精度校正常数,还加了1bit错误修正。普通的q4量化相当于把一张全彩图片强行降成16色,TurboQuant更接近视觉无损压缩,模型“看起来”还是原来那张图。
有网友测试后指出,同等bit数下TurboQuant比llama.cpp原生的KV cache量化质量更好,尤其在3bit时差距明显。至于有多接近无损,Google官方说90%以上,实测结果众说纷纭,差距基本在噂1%级别。
目前TurboQuant还没合并进llama.cpp主线,不过社区已经有可编译的实现,有网友预测本周内就能进主分支。MLX版本在路线图末端,不过已经有人提前做了PR。
20000 tokens对于真正的AI agent来说其实还很小,Claude Code的系统提示就有12k。本地设备离长上下文代理仍有距离,只是这个距离,今年开始以肉眼可见的速度在缩短。
ref: www.reddit.com/r/LocalLLaMA/comments/1s5kdu0/google_turboquant_running_qwen_locally_on_macair