首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >BPE和WordPiece令牌-什么时候使用/哪个?

BPE和WordPiece令牌-什么时候使用/哪个?
EN

Data Science用户
提问于 2020-06-02 14:21:40
回答 3查看 4.4K关注 0票数 8

选择BPE和WordPiece令牌有什么一般的权衡呢?什么时候一个比另一个更好?两者在模型性能上有什么不同吗?我正在寻找一个总的答案,并以具体的例子作为后盾。

EN

回答 3

Data Science用户

发布于 2021-03-25 02:08:40

(这个回答最初是一种评论)

您可以找到算法差异这里。在实际中,它们的主要区别是BPE将@@放在令牌的末尾,而词块将##放在开头。主要的性能差异通常不是来自于算法,而是具体的实现,例如句式提供了一个非常快速的C++实现。您可以在Hugginface的令牌器中找到这两种工具的快速锈蚀实现。

票数 5
EN

Data Science用户

发布于 2021-11-30 16:21:02

在noe的回答中添加更多信息:

WordPiece和BPE的区别在于选择符号对来增加词汇表的方式。WordPiece不依赖于对的频率,而是选择最大可能的训练数据。这意味着它从基词汇表开始训练语言模型,并以最大的似然(对=基词汇表字符+最高概率生成字符)来选择对。这一对将被添加到词汇表中,并且语言模型再次被训练成新的词汇表。重复这些步骤,直到达到所需的词汇表为止。

票数 1
EN

Data Science用户

发布于 2022-08-16 10:52:05

与BPE不同,WordPiece不选择最频繁的符号对,而是在词汇表中增加训练数据的可能性最大的符号对。那么这到底意味着什么呢?参照前面的例子,最大化训练数据的可能性等同于寻找符号对,其概率除以其第一个符号的概率和第二个符号的概率是所有符号对中最大的。例如,只有当"ug“除以"u”、"g“的概率大于任何其他符号对时,"u”和"g“后面的”g“才会合并。直观地说,WordPiece与BPE略有不同,因为它通过合并两个符号来评估丢失的内容,以确保它是值得的。

来自:https://huggingface.co/docs/transformers/tokenizer_摘要

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/75304

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档