在2006年关于连接式时间分类的文章中,Alex & co.介绍了一个带有27个标签的语音解码模型:26个字母用于字母,一个用于空白,意思是没有标签(我理解为)。
然而,我看到许多使用28个标签的CTC实现,一个是空白,另一个是空间。到目前为止,我还没有找到同时使用这两种标签的原因,对我来说,它们代表着相同的东西。
请您解释一下CTC上下文中空白和空格之间的区别,以及为什么需要这两个标签?
发布于 2020-02-07 07:07:37
在连接式时态分类中,空间只是一个空格,空白是'-‘,我们用它来解决数据的重复出现。例如,“比萨饼”将被编码为"pizza“。
TLDR;
参考文献:https://towardsdatascience.com/beam-search-decoding-in-ctc-trained-neural-networks-5a889a3d85a7
在CTC中,有一个如何编码重复字符的问题。它通过引入一个伪字符(称为空白,但不要将它与“实”空白,即空白字符)混为一谈来解决。这个特殊字符将在文本中表示为“-”。我们使用一个巧妙的编码模式来解决重复字符问题:在对文本进行编码时,我们可以在任意位置插入任意多个空白,在解码时会删除这些空白。但是,我们必须在重复字符之间插入一个空白,比如“hello”。而且,我们可以随心所欲地重复每一个角色。让我们看一些例子:“to”--→-ttttttooo“,或”- to -“,或者”to-t-o-“,或者”to-o-o“,或者”-to o-“,或者”to-o-o“,但不是”to-o“,但不是像您看到的那样”太“,这个模式还允许我们很容易地为同一文本创建不同的对齐方式,例如,”t-o“和”过“和”-to“都代表相同的文本(”to“),但与图像的对齐方式不同。训练NN输出编码文本(在NN输出矩阵中编码)。
https://stackoverflow.com/questions/55284586
复制相似问题