我在建一台OCR。为此,我使用了CNN、RNN和CTC损失函数。我的输入层得到图像,输出层预测该图像上所写的内容。标签被转换为整数。
['A', 'B', 'C'] -> A = 0, B = 1, C = 2如果图像是ABC,则训练标签为0,1,2 (单行向量)。
我可以在单线上完成这件事。就像。“ABCDE”写在图像上,模型工作得很好。但如果图像是
'ABC'
'CAB'那么培训标签应该是什么呢?我怎么才能告诉模特下一行的事呢?我想在多条线上训练一个模特。
发布于 2018-12-30 19:49:10
您希望识别包含多行的文档的文本。有两种方法可以实现这一点:
1 Bunke,Marti: IAM数据库:一个用于脱机手写识别的英文句子数据库。通过斯普林格下载
2模糊:联合线分割和转录为端到端手写段落识别。通过https://arxiv.org/abs/1604.08352下载
3蓝氏:扫描,出席和阅读。请参阅read.html,查找“使用MDLSTM和CTC进行手写识别”和“折叠层及其建议的替换”。
https://stackoverflow.com/questions/53928871
复制相似问题