很多人用 Claude Code 没写几行代码就频频撞上使用限制,以为是自己工作量大,其实你是在给“历史记录”交高额智商税。
有开发者分析了自己 4 个月的本地聊天记录,发现一个惊人的真相:高达 96% 的 Token 消耗根本不是在写新代码,而是在反复重读之前的对话历史。在同一个长对话里,发送同样一条消息的成本,最高能暴涨 8 倍。更别提 prompt 缓存 5 分钟失效后,每次重回对话还要额外多付 1.25 倍的重新写入费。
大模型厂商天然希望你消耗更多 Token,但聪明的做法是主动“物理断代”。聊天记录是极昂贵的存储,而本地文件是免费的。
最有效的解法是:一个任务,一个对话。当上下文累积到一定程度(比如 200k tokens),让 AI 自动生成一份包含当前进度、决策和下一步计划的 HANDOFF.md 存档文件,然后果断开新对话,让新 AI 读档继承。用最便宜的本地文件,省下最贵的上下文额度。
gist.github.com/cprkrn/d3f128a8e8e3ddfa4b38934edff34d42