在选择BPE和WordPiece标记化之间的一般权衡是什么?什么时候一个比另一个更可取?这两者在模型性能上有什么不同吗?我正在寻找一个通用的整体答案,并用具体的例子加以支持。谢谢!
发布于 2021-11-30 16:54:33
与BPE不同,WordPiece不选择最频繁的符号对,而是在将训练数据添加到词汇表中后最大化训练数据的可能性的符号对。最大化训练数据的可能性相当于找到符号对,在所有符号对中,其概率除以其第一个符号紧跟其第二个符号的概率是最大的。
直观上,WordPiece与BPE略有不同,因为它通过合并两个符号来评估它的损失,以确保它是值得的。
因此,WordPiece针对给定的训练数据进行了优化。WordPiece将具有更小的单词大小,因此需要训练的参数也更少。融合速度会更快。但当训练数据改变时,这可能不成立。
如果您的训练数据是固定的或与新的训练数据非常相似,请使用WordPiece。
如果你的训练数据发生了很大的变化,就去找BPE吧。
https://stackoverflow.com/questions/62154230
复制相似问题