我正在读伯特纸,不清楚变压器编码器和解码器的输入。
对于学习蒙面语言模型(完形任务),论文指出15%的标记被蒙面,网络被训练来预测掩蔽标记。既然是这样的话,变压器编码器和解码器的输入是什么?
是变压器编码器的输入--这个输入表示(见上面的图像)。如果是,解码器输入是什么?
此外,如何计算输出损失?这是只适用于蒙面地点的软件吗?为此,所有蒙面令牌都使用相同的线性层吗?
发布于 2020-02-24 22:24:30
啊,但你看,伯特不包括变压器解码器。它只是编码器部分,顶部添加了一个分类器。
对于蒙面词的预测,分类器起到译码器的作用,试图重建蒙面词的真实身份。分类非蒙面不包括在分类任务中,不影响损失。
伯特还接受了预测一对句子是否真的先于彼此的训练。
我不记得这两个损失是如何加权的。
我希望这画得更清楚些。
https://stackoverflow.com/questions/60382793
相似问题