编程小妖女
Token 化差异背后的 BPE 机制:为何单个汉字「夔」会被拆成多 Token,而常用词组「中国」只占一个 Token
原创
关注作者
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
编程小妖女
社区首页
>
专栏
>
Token 化差异背后的 BPE 机制:为何单个汉字「夔」会被拆成多 Token,而常用词组「中国」只占一个 Token
Token 化差异背后的 BPE 机制:为何单个汉字「夔」会被拆成多 Token,而常用词组「中国」只占一个 Token
编程小妖女
关注
发布于 2026-03-10 09:46:53
发布于 2026-03-10 09:46:53
118
0
举报
概述
在 GPT 家族使用的 tiktoken 编码方案里,汉字并不是简单地“一字一 token”。罕见字符可能被拆分成数个 token,而高频词组却可能被直接映射到一个 token。究其原因,要从 byte‑pair encoding (BPE) 的合并过程、 UTF‑8 多字节表示、词频统计与压缩效率多重视角综合解读。下文将先梳理 BPE 的工作逻辑,再对 夔 与 中国 两个案例做逐层拆解,并用可运
文章被收录于专栏:
人工智能
人工智能
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
人工智能
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
人工智能
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐