在最初的伯特文件“A.2预培训程序”一节中,提到:
LM掩蔽是在WordPiece标记化后进行的,平均掩蔽率为15%,对部分词段不作特殊考虑。
在RoBERTa文件“4.4文本编码”一节中提到:
最初的BERT实现(Devlin等人,2019)使用了一个大小为30K的字符级BPE词汇表,该词汇表是在使用启发式标记化规则对输入进行预处理后学习的。
我很感谢有人能澄清为什么在RoBERTa的论文中说伯特使用BPE?
发布于 2020-12-11 19:22:45
BPE和词条相当等价,只有最小差。在实际中,它们的主要区别是BPE将@@放在令牌的末尾,而词块将##放在开头。
@@
##
因此,我理解RoBERTa的作者们冒昧地交替使用BPE和字词。
https://datascience.stackexchange.com/questions/86572
相似问题