首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >伯特使用WordPiece,RoBERTa使用BPE

伯特使用WordPiece,RoBERTa使用BPE
EN

Data Science用户
提问于 2020-12-11 19:10:22
回答 1查看 1.7K关注 0票数 0

在最初的伯特文件“A.2预培训程序”一节中,提到:

LM掩蔽是在WordPiece标记化后进行的,平均掩蔽率为15%,对部分词段不作特殊考虑。

RoBERTa文件“4.4文本编码”一节中提到:

最初的BERT实现(Devlin等人,2019)使用了一个大小为30K的字符级BPE词汇表,该词汇表是在使用启发式标记化规则对输入进行预处理后学习的。

我很感谢有人能澄清为什么在RoBERTa的论文中说伯特使用BPE?

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-12-11 19:22:45

BPE和词条相当等价,只有最小差。在实际中,它们的主要区别是BPE将@@放在令牌的末尾,而词块将##放在开头。

因此,我理解RoBERTa的作者们冒昧地交替使用BPE和字词。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/86572

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档