在人工智能(AI)大爆发的 2023 年至 2026 年,"Token"这个词出现的频率高得令人窒息。
当你在使用 ChatGPT 写代码时,屏幕下方跳动的数字是 Token; 当你看到新闻说“大模型训练成本高达数亿美元”时,计费的单位是 Token; 当开发者讨论“上下文窗口(Context Window)”限制时,他们谈论的是能容纳多少 Token; 甚至在加密货币圈,人们依然在用 Token 指代那些数字资产。
对于大多数非技术背景的用户来说,Token 是一个模糊的概念。有人把它简单等同于“单词”,有人把它看作“字符”,还有人因为它在区块链中的含义而将其混淆为“虚拟货币”。这种认知的偏差,导致了许多人对 AI 能力的误解:为什么模型会数错数?为什么输入一段中文和一段英文,消耗的 Token 数量差异巨大?为什么模型有时候会“胡言乱语”?
Token,是 AI 时代的“原子”,是连接人类自然语言与机器数字世界的桥梁,更是大模型经济模型中的基本计价单位。
如果不理解 Token,你就无法真正理解大语言模型(LLM)是如何思考的,无法优化你的提示词(Prompt Engineering),无法预估 AI 应用的成本,更无法洞察未来人机交互的底层逻辑。
本文将用一万字的篇幅,从语言学、计算机科学、经济学和未来学四个维度,彻底解构 AI 时代的 Token。我们将深入到大模型的“大脑”皮层,看看文字是如何被粉碎成数字碎片的;我们将剖析 Transformer 架构的注意力机制,看 Token 如何相互吸引;我们将计算全球 AI 算力的消耗账单;最后,我们将展望一个由 Token 驱动的全新互联网形态。
这不仅是一篇技术科普,更是一份通往 AGI(通用人工智能)时代的生存指南。
让我们从最基础的定义开始。在自然语言处理(NLP)和大语言模型的语境下,Token 是文本被分割后的最小处理单元。
请注意关键词:“分割后”和“处理单元”。
在人类看来,句子是由单词(Word)组成的,单词是由字母(Character)或笔画组成的。但在 AI 看来,这些都不重要。AI 看到的只是一串经过特殊编码的数字序列。而 Token,就是这串数字序列中的每一个“数字”所代表的原始文本片段。
误区一:Token = 单词? 错。在英文中,一个简单的单词如 "apple" 可能是一个 Token,但 "unbelievable" 可能会被切分成 "un", "bel", "ievable" 三个 Token。在中文里,情况更复杂,“人工智能”可能被切分为“人工”、“智能”两个 Token,也可能在某些分词策略下被切分为“人”、“工”、“智”、“能”四个 Token,甚至在某些高频词表中作为一个整体 Token 存在。
误区二:Token = 字符? 错。一个 Token 可以是一个字符(如标点符号 "."),也可以是半个单词,甚至是一整个短语(如 "New York" 在某些模型中可能就是一个 Token)。
误区三:Token = 比特币那样的加密货币? 完全无关。虽然区块链中也有 Token(代币),但在 AI 领域,Token 纯粹是一个信息论和语言学的概念,代表数据的粒度,没有任何金融属性(除非特指某些 AI 项目的生态代币,那是另一回事)。
既然人类习惯用单词和句子交流,为什么 AI 不直接处理单词或字符,非要发明一个 Token 呢?这背后是计算机处理自然语言的三大核心矛盾:
人类的语言是开放的,新词层出不穷(比如 2024 年出现的各种 AI 新术语)。如果模型以“单词”为单位,那么它的词汇表(Vocabulary)将是无穷大的。模型需要为每一个可能的单词分配一个向量(Vector),这在计算资源和内存上是不可承受的。 相反,如果以“字符”为单位,词汇表确实很小(英文 26 个字母 + 标点,中文几千个汉字),但这带来了另一个问题:语义稀疏。 例如,字符 "a" 本身几乎没有明确的语义,它必须组合成 "apple" 才有意义。如果模型每次都要从 "a", "p", "p", "l", "e" 五个字符重新学习 "apple" 的含义,效率极低,且难以捕捉长距离的语义依赖。
Token 是平衡之道。 它通过统计学习,将高频出现的字符组合固化为一个单元。既控制了词汇表的大小(通常在 3 万到 10 万之间),又保留了足够的语义信息。
字符级处理在不同语言间差异巨大。英文是字母组合,中文是汉字组合,日文是假名 + 汉字,阿拉伯语是从右向左书写。如果模型针对不同语言设计不同的字符编码器,架构将极其复杂。
Tokenization(分词)过程可以将所有语言统一映射到一个共享的整数空间。无论是中文的“你好”,还是英文的 "Hello",最终都变成了类似 [2345, 6789] 这样的整数序列。这使得多语言大模型(Multilingual LLM)成为可能。
在传统 NLP 中,如果遇到训练集中没出现过的单词(Out Of Vocabulary, OOV),模型就傻眼了,通常用一个 <UNK> 标记代替,丢失了所有信息。
基于子词(Subword)的 Tokenization 策略(如 BPE)完美解决了这个问题。即使模型从未见过 "quantum-computing" 这个词,它也可以将其拆解为 "quant", "um", "-", "comput", "ing" 这些它认识的 Token,从而大致理解其含义。
要真正理解 Token,我们需要跟随一段文本,走完它在进入大模型之前的“变形记”。
假设我们输入句子:"AI is transforming the world."
第一步:预处理(Normalization)
模型首先会对文本进行标准化。比如统一大小写(视模型而定,现在的模型大多区分大小写),处理特殊的空白字符,将全角标点转为半角等。
结果可能变为:"AI is transforming the world."
第二步:分词(Tokenization)
这是最关键的一步。模型使用预训练的分词器(Tokenizer),根据特定的算法(如 BPE、WordPiece 或 Unigram),将字符串切割成碎片。
对于这个句子,分词器可能会这样切分:
["AI", " is", " transform", "ing", " the", " world", "."]
注意细节:
在这个例子中,7 个单词被转化为了 7 个 Token。但如果句子是 "Unbelievably",可能会被切分为 ["Un", "believ", "ably"](3 个 Token)。如果是中文 “大语言模型”,可能会被切分为 ["大", "语言", "模型"](3 个 Token)或者 ["大语言", "模型"],具体取决于词表。
第三步:映射(Mapping) 分词器内部维护着一个巨大的字典(Vocabulary),将每个文本片段映射为一个唯一的整数 ID。 假设字典如下:
那么,原始句子就变成了整数序列:
[1024, 315, 5678, 234, 12, 987, 10]
第四步:嵌入(Embedding) 这些整数对人类没有意义,对神经网络也没法直接计算。它们需要通过一个嵌入层(Embedding Layer),转化为高维向量(Vector)。 每个整数 ID 对应一个长度为 $d$(比如 4096 或 8192)的向量。这个向量是模型在海量数据训练中学到的,它包含了该 Token 的语义信息。
至此,文本彻底消失了,取而代之的是一串高密度的数学向量。大模型(Transformer)后续的所有注意力计算、前馈网络操作,都是在这串向量上进行的。
总结:Token 是文本在数字世界中的“量子态”。它既保留了部分语义特征,又是可计算的离散单元。
Token 的质量直接决定了大模型的上限。如果分词切得不好,模型就难以理解语言的规律。过去十年,分词算法经历了从规则到统计,再到混合模式的演进。
早期的 NLP 系统依赖语言学家的手工规则。
缺点:灵活性差,无法适应开放域语言,OOV 问题严重。
这是当前大模型的主流方案。核心思想是:让数据自己决定怎么切分。通过统计语料库中字符共现的频率,将高频组合合并为一个 Token。
BPE 最初是一种数据压缩算法,2016 年被引入 NLP(由 Sennrich 等人提出),并迅速成为行业标准。GPT 系列、RoBERTa 等模型均使用 BPE。
BPE 的工作原理(通俗版):
结果:
BPE 的优势:
Google 提出的算法,用于 BERT 模型。它与 BPE 非常相似,区别在于合并的标准。
在实际效果上,两者差异不大,但在处理某些特定语言结构时,WordPiece 可能更优。BERT、DistilBERT、Electra 等模型使用此算法。
SentencePiece 库中实现的一种算法。它不像 BPE 那样自底向上合并,而是自顶向下。
优势:Unigram 允许在解码时有多种分词可能性,并赋予概率,这在某些生成任务中更具鲁棒性。Google 的 T5 模型使用了 SentencePiece (Unigram)。
随着模型能力的进化,传统的分词算法也面临挑战。
传统的 BPE 在处理非拉丁语系(如中文、日文、阿拉伯文)时,有时会出现切分过细的问题。例如,中文的一个汉字可能被切碎,或者多个汉字被强行合并成一个无意义的 Token。 新的分词器(如 Llama 3 使用的 Tiktoken 变体)针对多语言进行了优化,扩大了词汇表(从 3 万扩展到 10 万+),纳入了更多常见的高频短语和多语言字符组合,以提高压缩率。
为了解决特殊字符(Emoji、生僻字、控制字符)导致的编码错误,GPT-2 引入了 Byte-level BPE。 它将文本先转换为 UTF-8 字节序列,然后在字节层面进行 BPE 合并。
<UNK>。当上下文窗口达到 100 万 Token 时,分词的效率变得至关重要。一些研究开始探索动态分词或层级分词,即在粗粒度(短语)和细粒度(字符)之间动态切换,以减少序列长度,降低 Attention 矩阵的计算复杂度($O(N^2)$)。
了解不同模型的分词器差异,对于开发者选择合适的模型至关重要。
模型家族 | 分词算法 | 词汇表大小 | 特点 | 中文表现 |
|---|---|---|---|---|
GPT-3/3.5/4 | BPE (Tiktoken) | ~100k (cl100k_base) | 压缩率极高,英文优化极佳 | 较好,平均 1 汉字≈1.5 Token |
Llama 2/3 | BPE (SentencePiece) | 32k -> 128k (Llama 3) | Llama 3 大幅扩充词表,提升多语言和代码能力 | Llama 3 显著提升,减少碎片化 |
BERT | WordPiece | 30k | 专为理解设计,双向上下文 | 一般,常有单字切分 |
Qwen (通义千问) | BPE | 150k+ | 针对中文深度优化,支持大量中文词汇 | 极佳,接近 1 汉字≈1 Token |
Gemini | 自定义 | 未知 (估计>200k) | 多模态原生,统一处理文本和图像 Patch | 优秀 |
关键洞察:词汇表越大,常见短语被合并为一个 Token 的概率越高,序列越短,推理速度越快,显存占用越低。这也是为什么 Llama 3 和 Qwen 都要拼命扩大词表的原因。
如果说数据是 AI 的土壤,算力是 AI 的引擎,那么 Token 就是 AI 的石油。它是衡量 AI 生产力、成本和价值的核心单位。
在 2026 年的 AI 云服务市场,几乎所有的商业大模型 API(如 OpenAI, Anthropic, Google, Azure)都采用按 Token 计费的模式。
为什么 Input 和 Output 价格不同? 通常情况下,Output Token 的价格是 Input Token 的 2 到 5 倍。
价格示例( hypothetical 2026 年价格):
假设你要开发一个“智能法律合同审查助手”。
洞察:
除了 API 调用,训练大模型本身的 Token 消耗更是天文数字。
数据稀缺危机: 截至 2026 年,互联网上公开的高质量文本数据(High-quality Text)几乎已经被挖掘殆尽。据估计,公共互联网的可利用 Token 总量在 10 万亿到 50 万亿之间。 这意味着:
在 AI 经济中,也存在类似货币的现象:
Token 不仅仅是计费单位,它从根本上塑造了大模型的认知方式和能力边界。理解了 Token,你就能理解为什么 AI 既聪明又愚蠢。
定义:上下文窗口是指模型在一次推理过程中能够同时处理的 Token 最大数量(Input + Output)。
Token 限制带来的认知瓶颈:
大模型经常被嘲笑“连 100 以内的加减法都会算错”。根源在于 Tokenization。
解决方案:
大模型的本质是下一个 Token 预测器(Next Token Predictor)。 给定前面的序列 $T_1, T_2, ..., T_n$,模型计算 $P(T_{n+1} | T_1...T_n)$,选择概率最高的那个 Token。
幻觉的成因:
Token 采样策略的影响:
由于训练数据中英文占比过高(早期高达 90%),英文的 Token 划分通常更细粒度、更合理,而小语种或中文的 Token 可能更破碎。
站在 2026 年的节点展望未来,Token 的概念正在发生深刻的演变。它不再局限于文本,正在向多模态、连续空间和神经符号结合的方向进化。
在早期的多模态模型中,图像、音频和文本是分开处理的。但在最新的架构(如 Chameleon, Unified-IO 等)中,一切皆是 Token。
意义: 这种统一使得模型可以进行真正的跨模态推理。你可以问:“这张图里的文字是什么意思?”模型直接在同一个向量空间里计算图像 Token 和文本 Token 的 Attention,无需额外的 OCR 模块。 未来,甚至**动作(Robotics)**也将被 Token 化。机器人的关节角度、力度、轨迹都被离散化为 Token,大模型直接输出 Token 来控制机器人干活。
离散 Token 虽然方便,但存在信息损失(量化误差)。
为了解决 Token 预测在逻辑和数学上的短板,神经符号 AI(Neuro-Symbolic AI) 正在兴起。
这里我们要把两个 "Token" 概念合流了。 在去中心化算力网络(如 Render, Akash, Gensyn)中:
未来可能出现一种Universal Token Economy: 你贡献了一段高质量的文本(增加了语料库的多样性),这段文本被切片为 Training Tokens。每当有模型用到这些 Token 训练,或者在推理中引用了相关知识,智能合约就会自动向你支付微量的加密货币 Token。 数据即资产,Token 即分红。 这将从根本上改变 AI 数据的获取方式,激励人类创造更多高质量内容,对抗合成数据的污染。
对于开发者和普通用户,理解 Token 的最终目的是为了更好使用 AI。以下是几条黄金法则。
<context> ... </context> <instruction> ... </instruction>tiktoken 库),在发送请求前预估成本。回顾历史,人类文明的每一次飞跃,都伴随着信息载体的革新。
Token 的出现,标志着人类语言第一次被真正地“量化”了。我们不再仅仅是交流,我们是在编译思想。当我们输入一段提示词,我们实际上是在编写一段运行在大模型神经网络上的程序,而 Token 就是这段程序的机器码。
在 2026 年及以后,Token 将无处不在:
然而,我们也要警惕 Token 的局限性。它毕竟是离散的、概率的、有损的压缩。它不能完全代表人类丰富的情感和深邃的智慧。过度依赖 Token 化的交互,可能会让人类语言本身变得贫乏,为了迎合机器的分词习惯而简化表达。
未来的挑战在于:如何在享受 Token 带来的高效与智能的同时,保持人类语言的灵动与深度?如何设计更好的 Tokenization 方案,让机器不仅能“读懂”字面意思,更能“读懂”弦外之音?
AI 时代的 Token,既是机遇也是挑战。它打开了通往 AGI 的大门,但也设定了新的规则。唯有深刻理解这一基本单元,我们才能在这场人机共生的变革中,掌握主动权,成为驾驭 AI 的骑手,而不是被算法裹挟的尘埃。
Token 虽小,却承载着整个智能世界的重量。
愿你在 Token 的海洋中,乘风破浪,直抵智慧的彼岸。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。