我试图了解RNN传感器是如何与地面真相标签训练的。在反恐委员会的情况下,我知道该模型是经过训练的损失函数,它总结了所有可能的地面真理标签的所有分数。
但在RNN-T中,预测网络必须从最后一步接收输入,以产生类似于“教师强制”方法的输出。但我在这里的疑问是,地面真实标签是否应该被转换成所有可能的空标签对齐,并通过教师强制“方法”将每条直线传送到网络上?
发布于 2019-07-03 20:01:16
RNN-T具有一个转录网络(类似于一个声学模型)、一个预测网络(语言模型)和一个联合网络(/function,视实现而定),该网络结合了预测网络和转录网络的输出。
在培训期间,您可以通过以下方式处理每一句话:
如2012年Graves图1所示,联合网络的T*U输出可视为一个网格。然后,可以使用前向后向算法有效地实现损失函数( Graves 2012,2.4节)。只允许水平(耗用声帧)和垂直(消费标签)转换。从t到t+1类似于CTC中的空白状态,而非空白符号是在进行垂直转换时输出的,即从输出标签u到u+1。请注意,您可以在不输出一个非空白符号的情况下消耗多个时间帧(按照CTC),但您也可以输出多个标签而不通过t进行推进。
要更直接地回答您的问题,请注意,只有非空白输出才被传递回预测网络的输入,并且转录和预测网络是异步运行的。
参考文献:
https://stackoverflow.com/questions/56875185
复制相似问题