问为什么BERT模型必须保持10%的掩码标记不变？
EN

Stack Overflow用户

提问于 2020-09-23 00:20:30

回答 1查看 1.2K关注 0票数 2

我正在读BERT模型论文。在预训练BERT模型的掩蔽语言模型任务中，本文表示模型将随机选择15%的令牌。在选择的标记( Ti )中，80%将被替换为掩码标记，10%的Ti保持不变，10%的Ti将替换为另一个单词。我认为模型只需要替换为掩码或其他单词就足够了。为什么模型必须随机选择一个单词并保持不变？预训练过程是只预测掩码令牌，还是预测15%的整个随机令牌？

deep-learning

nlp

bert-language-model

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-09-23 00:51:36

这样做是因为他们想要预训练双向模型。大多数时候，网络会看到一个带有掩码标记的句子，并且它被训练来预测应该在那里的单词。但是在微调中，这是在预训练之后完成的(微调是每个想要使用BERT完成任务的人所做的训练)，没有掩膜令牌！(除非您专门做了屏蔽LM)。

预训练和训练之间的这种不匹配(掩码标记的突然消失)被它们软化，有15%的概率单词不会被掩码替换。任务仍然存在，网络必须预测令牌，但实际上它已经获得了答案作为输入。这可能看起来有悖于直觉，但当与面具训练结合起来时，这是有意义的。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64013808

复制

相似问题

问为什么BERT模型必须保持10%的掩码标记不变？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么BERT模型必须保持10%的掩码标记不变？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么BERT模型必须保持10%的掩码标记不变？
EN