当一个变压器模型被训练时,在解码器的末端有线性层,我的理解是一个完全连接的神经网络。在变压器模型训练过程中,当有损耗时,会反向传播来调整权值。
我的问题是反向传播有多深?
请帮我回答这个问题。
发布于 2021-02-05 13:45:18
反向传播扩展到整个模型,通过所有的解码器和编码器层,直到嵌入表。
https://datascience.stackexchange.com/questions/88977
相似问题