关于变压器的新问题。
我指的是https://arxiv.org/pdf/1706.03762.pdf的报纸。
图1(右下角)表示:“输出(右移)”。在我看来,在生成(而不是训练)期间,网络的第n输出似乎是通过消耗n-1输出来计算的,可能还包括更早的输出条目。我的理解正确吗?
如果是这样的话,那将是一个反馈,不是吗?但是为什么说变压器是前馈的呢?是因为训练中的输出是“只读”的吗?说变压器在发电时有反馈是正确的吗?
发布于 2022-03-08 13:49:54
你的理解是正确的:
https://datascience.stackexchange.com/questions/108875
复制相似问题