我正在读BERT模型论文。在预训练BERT模型的掩蔽语言模型任务中,本文表示模型将随机选择15%的令牌。在选择的标记( Ti )中,80%将被替换为掩码标记,10%的Ti保持不变,10%的Ti将替换为另一个单词。我认为模型只需要替换为掩码或其他单词就足够了。为什么模型必须随机选择一个单词并保持不变?预训练过程是只预测掩码令牌,还是预测15%的整个随机令牌?
发布于 2020-09-23 00:51:36
这样做是因为他们想要预训练双向模型。大多数时候,网络会看到一个带有掩码标记的句子,并且它被训练来预测应该在那里的单词。但是在微调中,这是在预训练之后完成的(微调是每个想要使用BERT完成任务的人所做的训练),没有掩膜令牌!(除非您专门做了屏蔽LM)。
预训练和训练之间的这种不匹配(掩码标记的突然消失)被它们软化,有15%的概率单词不会被掩码替换。任务仍然存在,网络必须预测令牌,但实际上它已经获得了答案作为输入。这可能看起来有悖于直觉,但当与面具训练结合起来时,这是有意义的。
https://stackoverflow.com/questions/64013808
复制相似问题