问如何在截断的BPTT中计算许多到一个问题的损失？
EN

Data Science用户

提问于 2022-10-21 07:05:26

回答 1查看 30关注 0票数 0

在我所引用的许多资源中，例如Justin Johnson关于RNN的第12课，截断BPTT被解释为序列中较小块的前馈和反向传播过程。这些解释表示，损失是为每个块计算的，而前一个块中的最后一个隐藏状态用作下一个块的初始隐藏状态。

但是，在一个多到一个问题，当有一个目标只有在最后一步，损失是如何计算的块？或者在这种情况下截断BPTT是如何工作的。

回答已采纳

发布于 2022-10-21 09:20:33

如果在您的问题中，只有在序列的末尾计算结果才有意义，那么损失只能在包含序列结束的批处理中计算。如果每个序列都有不同的长度，我想这会变得更复杂。

然而，在许多对一的问题中，通常每一步计算结果都是有意义的。例如，在时间序列预测或语言建模中，输入是前一时间步骤，输出是下一时间步骤的预测，因此在每个时间步骤生成结果(即对下一时间步骤的预测)并结合每批中每一时间步骤的输出误差计算损失是有意义的。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/115438

复制

相似问题

问如何在截断的BPTT中计算许多到一个问题的损失？EN