整流罩包括一个非自回归转换器的实现(据我所理解),这意味着整个输出序列是在一个前向运行中生成的(与每个前向运行预测输入和先前预测的令牌的自回归模型相反)。
但是,从代码中可以看出,模型仍然期望前面的令牌作为输入:
def forward(self, src_tokens, src_lengths, prev_output_tokens, tgt_tokens, **kwargs)发布于 2020-08-23 14:46:43
它与基类forward方法的签名保持一致,因此允许使用它来代替任何其他自回归转换器,但实际上没有使用它。同样的情况发生在模型解码器中。
https://datascience.stackexchange.com/questions/80682
复制相似问题