首页
学习
活动
专区
圈层
工具
发布

看懂AI token速度:从拨号上网窘境到人类视觉极限

快速阅读:LLM 的吞吐量指标(tok/s)往往因缺乏感官体验而难以被理解。本文探讨了从“拨号上网时代”的缓慢到“视觉瓶颈”时代的跨越,揭示了推理速度、预填充速度以及人类视觉处理极限如何共同定义 AI 时代的交互体验。

当你看到“4090 跑出 180 tok/s”这类数字时,大脑其实很难建立直观的体感。

如果把生成速度比作数据传输,我们正处于生成式 AI 的“拨号上网时代”。在本地设备上,3 到 5 tok/s 的速度极其痛苦,甚至比人类打字还慢,但如果你把窗口藏起来去做别的事,它总能准时完成。

有意思的是,速度并不总是正相关的。对于 Agent 而言,60 tok/s 似乎才刚刚达到“不让人烦躁”的门槛。因为 Agent 的工作流里充满了大量的“背景噪音”:工具调用、元数据、还有那让人抓狂的“思考过程(Reasoning)”。

对于那些推理模型,真正的消耗在于“思考”。当模型在输出最终答案前先“思考”了一千个 token 时,你面对的是长达一分钟的转圈等待。这种体验就像是在等待一个极其缓慢的编译器完成预处理。

当速度冲向 800 tok/s 甚至更高时,问题发生了反转。瓶颈不再是算力,而是你的眼睛。人类视觉的精细分辨区域非常小,你无法一眼扫完整个页面,必须通过视线扫描。在极高频率的滚动下,信息的输入速度会直接撞上人类生理的墙。

有网友提到,如果速度快到一定程度,人类甚至无法进行逻辑推理。因为你只能维持一个模糊的意图,根本没法细读。

更有趣的讨论在于预填充(Prefill)与解码(Decoding)的权衡。对于处理长文档的任务,预填充速度决定了你是否需要“原地踏步”;而对于对话,解码速度决定了你是否需要“分心处理”。

我们可能正走向一个全新的计算范式:当硬件能以百万级 tok/s 运行,人类的审查速度将成为整个系统的最慢环节。

mikeveerman.github.io/tokenspeed/

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OvMn3IoeCGMf2R227ntDwY1A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券