在我所引用的许多资源中,例如Justin Johnson关于RNN的第12课,截断BPTT被解释为序列中较小块的前馈和反向传播过程。这些解释表示,损失是为每个块计算的,而前一个块中的最后一个隐藏状态用作下一个块的初始隐藏状态。
但是,在一个多到一个问题,当有一个目标只有在最后一步,损失是如何计算的块?或者在这种情况下截断BPTT是如何工作的。
发布于 2022-10-21 09:20:33
如果在您的问题中,只有在序列的末尾计算结果才有意义,那么损失只能在包含序列结束的批处理中计算。如果每个序列都有不同的长度,我想这会变得更复杂。
然而,在许多对一的问题中,通常每一步计算结果都是有意义的。例如,在时间序列预测或语言建模中,输入是前一时间步骤,输出是下一时间步骤的预测,因此在每个时间步骤生成结果(即对下一时间步骤的预测)并结合每批中每一时间步骤的输出误差计算损失是有意义的。
https://datascience.stackexchange.com/questions/115438
复制相似问题