在CTC中，有一个如何编码重复字符的问题。它通过引入一个伪字符(称为空白，但不要将它与“实”空白，即空白字符)混为一谈来解决。这个特殊字符将在文本中表示为“-”。我们使用一个巧妙的编码模式来解决重复字符问题:在对文本进行编码时，我们可以在任意位置插入任意多个空白，在解码时会删除这些空白。但是，我们必须在重复字符之间插入一个空白，比如“hello”。而且，我们可以随心所欲地重复每一个角色。让我们看一些例子：“to”--→-ttttttooo“，或”- to -“，或者”to-t-o-“，或者”to-o-o“，或者”-to o-“，或者”to-o-o“，但不是”to-o“，但不是像您看到的那样”太“，这个模式还允许我们很容易地为同一文本创建不同的对齐方式，例如，”t-o“和”过“和”-to“都代表相同的文本(”to“)，但与图像的对齐方式不同。训练NN输出编码文本(在NN输出矩阵中编码)。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55284586

复制

相似问题

问反恐委员会:空格和空白有什么区别？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问反恐委员会:空格和空白有什么区别？EN