首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Token 化差异背后的 BPE 机制:为何单个汉字「夔」会被拆成多 Token,而常用词组「中国」只占一个 Token

Token 化差异背后的 BPE 机制:为何单个汉字「夔」会被拆成多 Token,而常用词组「中国」只占一个 Token

作者头像
编程小妖女
发布2026-03-10 09:46:53
发布2026-03-10 09:46:53
1180
举报
概述
在 GPT 家族使用的 tiktoken 编码方案里,汉字并不是简单地“一字一 token”。罕见字符可能被拆分成数个 token,而高频词组却可能被直接映射到一个 token。究其原因,要从 byte‑pair encoding (BPE) 的合并过程、 UTF‑8 多字节表示、词频统计与压缩效率多重视角综合解读。下文将先梳理 BPE 的工作逻辑,再对 夔 与 中国 两个案例做逐层拆解,并用可运
文章被收录于专栏:人工智能人工智能

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档