快速阅读:词元(Token)是AI处理信息的最小单位,相当于语言的“原子”。中国日均词元调用量两年内从1000亿增长到140万亿,增长超千倍。这个冷僻的技术术语,正在变成AI时代最重要的计量单位。
“我爱中国!”这句话,AI不会直接读。它先把它切成“我/爱/中国/!”四块,每块就是一个词元。英文“unhappy”切成“un”和“happy”两块。这就是大模型理解世界的方式——把一切打碎,再重新理解。
中英文之间存在一个隐藏的不平等:表达同样的意思,中文消耗的词元比英文多30%到50%。这意味着,用中文跟AI聊天,你实际上在多花钱。用英文提问、限定字数回答,是目前最实用的省钱技巧。
2026年3月24日,国家数据局正式把Token译定为“词元”。“智元”落选,因为它把智能属性说过头了;“模元”落选,因为没能覆盖语言处理的本质。“词元”最终胜出,“词”延续分词器传统,“元”强调不可再分。有观点认为“词”字限制了多模态场景的想象空间,毕竟图像、音频也在被切成Token处理。这个争议还没完。
词元正在成为AI时代的水电煤。有网友提到,部分企业20天的词元收入已经超过2025年全年。中国凭借绿电成本和算法优化,把推理功耗压低了30%到50%,国产模型全球周调用量占比超过60%。
上下文窗口是另一个容易被忽略的细节。128K词元大约能处理300页文本,超出这个范围,模型就开始遗忘前面说过的话。你跟AI聊得越久,它遗忘得越多,这不是情绪问题,是物理限制。
还有一件事没多少人注意:那些挂在后台待命的AI智能体,即使没在干活,也可能在持续消耗词元。