首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为什么BERT模型必须保持10%的掩码标记不变?

为什么BERT模型必须保持10%的掩码标记不变?
EN

Stack Overflow用户
提问于 2020-09-23 00:20:30
回答 1查看 1.2K关注 0票数 2

我正在读BERT模型论文。在预训练BERT模型的掩蔽语言模型任务中,本文表示模型将随机选择15%的令牌。在选择的标记( Ti )中,80%将被替换为掩码标记,10%的Ti保持不变,10%的Ti将替换为另一个单词。我认为模型只需要替换为掩码或其他单词就足够了。为什么模型必须随机选择一个单词并保持不变?预训练过程是只预测掩码令牌,还是预测15%的整个随机令牌?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-09-23 00:51:36

这样做是因为他们想要预训练双向模型。大多数时候,网络会看到一个带有掩码标记的句子,并且它被训练来预测应该在那里的单词。但是在微调中,这是在预训练之后完成的(微调是每个想要使用BERT完成任务的人所做的训练),没有掩膜令牌!(除非您专门做了屏蔽LM)。

预训练和训练之间的这种不匹配(掩码标记的突然消失)被它们软化,有15%的概率单词不会被掩码替换。任务仍然存在,网络必须预测令牌,但实际上它已经获得了答案作为输入。这可能看起来有悖于直觉,但当与面具训练结合起来时,这是有意义的。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64013808

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档