首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >RNN传感器训练中的标签对齐

RNN传感器训练中的标签对齐
EN

Stack Overflow用户
提问于 2019-07-03 17:18:46
回答 1查看 1.2K关注 0票数 3

我试图了解RNN传感器是如何与地面真相标签训练的。在反恐委员会的情况下,我知道该模型是经过训练的损失函数,它总结了所有可能的地面真理标签的所有分数。

但在RNN-T中,预测网络必须从最后一步接收输入,以产生类似于“教师强制”方法的输出。但我在这里的疑问是,地面真实标签是否应该被转换成所有可能的空标签对齐,并通过教师强制“方法”将每条直线传送到网络上?

EN

回答 1

Stack Overflow用户

发布于 2019-07-03 20:01:16

RNN-T具有一个转录网络(类似于一个声学模型)、一个预测网络(语言模型)和一个联合网络(/function,视实现而定),该网络结合了预测网络和转录网络的输出。

在培训期间,您可以通过以下方式处理每一句话:

  • 通过转录网络传播所有T声波帧并存储输出(转录网络隐藏状态)
  • 通过预测网络传播长度为U的地面真值标号序列,在序列开始处传递一个全零向量。请注意,此时不需要担心空白状态。
  • 通过联合网络传播所有T*U组合的转录和预测网络隐藏状态,无论是简单和指数,如每Graves (2012年),还是一个前馈网络,如最近的谷歌ASR出版物(即:他等。2019年)。

如2012年Graves图1所示,联合网络的T*U输出可视为一个网格。然后,可以使用前向后向算法有效地实现损失函数( Graves 2012,2.4节)。只允许水平(耗用声帧)和垂直(消费标签)转换。从t到t+1类似于CTC中的空白状态,而非空白符号是在进行垂直转换时输出的,即从输出标签u到u+1。请注意,您可以在不输出一个非空白符号的情况下消耗多个时间帧(按照CTC),但您也可以输出多个标签而不通过t进行推进。

要更直接地回答您的问题,请注意,只有非空白输出才被传递回预测网络的输入,并且转录和预测网络是异步运行的。

参考文献:

  • 递归神经网络序列导入,Graves 2012
  • 移动设备的流端到端语音识别,他等.2019
票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56875185

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档