看懂AI token速度：从拨号上网窘境到人类视觉极限

文章来源：企鹅号 - AI可可AI生活

快速阅读：LLM 的吞吐量指标（tok/s）往往因缺乏感官体验而难以被理解。本文探讨了从“拨号上网时代”的缓慢到“视觉瓶颈”时代的跨越，揭示了推理速度、预填充速度以及人类视觉处理极限如何共同定义 AI 时代的交互体验。

当你看到“4090 跑出 180 tok/s”这类数字时，大脑其实很难建立直观的体感。

如果把生成速度比作数据传输，我们正处于生成式 AI 的“拨号上网时代”。在本地设备上，3 到 5 tok/s 的速度极其痛苦，甚至比人类打字还慢，但如果你把窗口藏起来去做别的事，它总能准时完成。

有意思的是，速度并不总是正相关的。对于 Agent 而言，60 tok/s 似乎才刚刚达到“不让人烦躁”的门槛。因为 Agent 的工作流里充满了大量的“背景噪音”：工具调用、元数据、还有那让人抓狂的“思考过程（Reasoning）”。

对于那些推理模型，真正的消耗在于“思考”。当模型在输出最终答案前先“思考”了一千个 token 时，你面对的是长达一分钟的转圈等待。这种体验就像是在等待一个极其缓慢的编译器完成预处理。

当速度冲向 800 tok/s 甚至更高时，问题发生了反转。瓶颈不再是算力，而是你的眼睛。人类视觉的精细分辨区域非常小，你无法一眼扫完整个页面，必须通过视线扫描。在极高频率的滚动下，信息的输入速度会直接撞上人类生理的墙。

有网友提到，如果速度快到一定程度，人类甚至无法进行逻辑推理。因为你只能维持一个模糊的意图，根本没法细读。

更有趣的讨论在于预填充（Prefill）与解码（Decoding）的权衡。对于处理长文档的任务，预填充速度决定了你是否需要“原地踏步”；而对于对话，解码速度决定了你是否需要“分心处理”。

我们可能正走向一个全新的计算范式：当硬件能以百万级 tok/s 运行，人类的审查速度将成为整个系统的最慢环节。

mikeveerman.github.io/tokenspeed/

相关快讯