选择BPE和WordPiece令牌有什么一般的权衡呢?什么时候一个比另一个更好?两者在模型性能上有什么不同吗?我正在寻找一个总的答案,并以具体的例子作为后盾。
发布于 2021-03-25 02:08:40
发布于 2021-11-30 16:21:02
在noe的回答中添加更多信息:
WordPiece和BPE的区别在于选择符号对来增加词汇表的方式。WordPiece不依赖于对的频率,而是选择最大可能的训练数据。这意味着它从基词汇表开始训练语言模型,并以最大的似然(对=基词汇表字符+最高概率生成字符)来选择对。这一对将被添加到词汇表中,并且语言模型再次被训练成新的词汇表。重复这些步骤,直到达到所需的词汇表为止。
发布于 2022-08-16 10:52:05
与BPE不同,WordPiece不选择最频繁的符号对,而是在词汇表中增加训练数据的可能性最大的符号对。那么这到底意味着什么呢?参照前面的例子,最大化训练数据的可能性等同于寻找符号对,其概率除以其第一个符号的概率和第二个符号的概率是所有符号对中最大的。例如,只有当"ug“除以"u”、"g“的概率大于任何其他符号对时,"u”和"g“后面的”g“才会合并。直观地说,WordPiece与BPE略有不同,因为它通过合并两个符号来评估丢失的内容,以确保它是值得的。
https://datascience.stackexchange.com/questions/75304
复制相似问题