在Mac上跑本地AI编程助手,以前常被当成极客的玩具。但最近的技术突破正在改变游戏规则。作者通过llama.cpp配合Gemma 4,利用MTP(多Token预测)技术,在M1 Max上把生成速度提升了24%,达到每秒72个Token,让本地流畅编程成为现实。
不过,围观网友一针见血地指出:只用128个Token的短文本测速,无异于“只听了序曲就评价整部歌剧”,长上下文才是真正的试金石。而且在智商上限上,本地模型依然打不过Claude等云端巨头。
既然如此,为什么还要折腾?因为掌控感。本地部署带来的隐私安全、网络独立性,以及在折腾过程中建立的底层认知,是直接调用云端API永远无法获得的。这不仅是效率工具的升级,更是一场个人技术主权的回归。
ikyle.me/blog/2026/how-to-setup-a-local-coding-agent-on-macos