首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >光学字符识别多线检测

光学字符识别多线检测
EN

Stack Overflow用户
提问于 2018-12-26 07:31:32
回答 1查看 2.9K关注 0票数 7

我在建一台OCR。为此,我使用了CNNRNNCTC损失函数。我的输入层得到图像,输出层预测该图像上所写的内容。标签被转换为整数。

代码语言:javascript
复制
['A', 'B', 'C'] -> A = 0, B = 1, C = 2

如果图像是ABC,则训练标签为0,1,2 (单行向量)。

我可以在单线上完成这件事。就像。“ABCDE”写在图像上,模型工作得很好。但如果图像是

代码语言:javascript
复制
'ABC'

'CAB'

那么培训标签应该是什么呢?我怎么才能告诉模特下一行的事呢?我想在多条线上训练一个模特。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-12-30 19:49:10

您希望识别包含多行的文档的文本。有两种方法可以实现这一点:

  1. 将文档作为pre-processing步骤将文档放入 line ,然后将每个分段行分别输入到您的神经网络中。如果你想走这条路,例如从邦克和马蒂那里读第一卷。他们基本上计算每条扫描线的黑白转换,并从中创建一个直方图。他们使用直方图的最小值将文档分割成单独的行。还有一些其他方法可以将文档分割成行。
  2. 神经网络训练为,将文档隐式地分割为线。你需要把注意力加到神经网络上,这样它就可以集中在单个线路上。Bluche在文档级别的文本识别方面做了一些很棒的工作。见论文2和网站3。

1 Bunke,Marti: IAM数据库:一个用于脱机手写识别的英文句子数据库。通过斯普林格下载

2模糊:联合线分割和转录为端到端手写段落识别。通过https://arxiv.org/abs/1604.08352下载

3蓝氏:扫描,出席和阅读。请参阅read.html,查找“使用MDLSTM和CTC进行手写识别”和“折叠层及其建议的替换”。

票数 7
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/53928871

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档