文章/答案/技术大牛

发布

问光学字符识别多线检测
EN

Stack Overflow用户

提问于 2018-12-26 07:31:32

回答 1查看 2.9K关注 0票数 7

我在建一台OCR。为此，我使用了CNN、RNN和CTC损失函数。我的输入层得到图像，输出层预测该图像上所写的内容。标签被转换为整数。

['A', 'B', 'C'] -> A = 0, B = 1, C = 2

如果图像是ABC，则训练标签为0,1,2 (单行向量)。

我可以在单线上完成这件事。就像。“ABCDE”写在图像上，模型工作得很好。但如果图像是

'ABC'

'CAB'

那么培训标签应该是什么呢？我怎么才能告诉模特下一行的事呢？我想在多条线上训练一个模特。

python

tensorflow

keras

ocr

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-12-30 19:49:10

您希望识别包含多行的文档的文本。有两种方法可以实现这一点：

将文档作为pre-processing步骤将文档放入 line ，然后将每个分段行分别输入到您的神经网络中。如果你想走这条路，例如从邦克和马蒂那里读第一卷。他们基本上计算每条扫描线的黑白转换，并从中创建一个直方图。他们使用直方图的最小值将文档分割成单独的行。还有一些其他方法可以将文档分割成行。
将的神经网络训练为，将文档隐式地分割为线。你需要把注意力加到神经网络上，这样它就可以集中在单个线路上。Bluche在文档级别的文本识别方面做了一些很棒的工作。见论文2和网站3。

1 Bunke，Marti: IAM数据库:一个用于脱机手写识别的英文句子数据库。通过斯普林格下载

2模糊:联合线分割和转录为端到端手写段落识别。通过https://arxiv.org/abs/1604.08352下载

3蓝氏:扫描，出席和阅读。请参阅read.html，查找“使用MDLSTM和CTC进行手写识别”和“折叠层及其建议的替换”。

票数 7

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53928871

复制

相似问题

问光学字符识别多线检测
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问光学字符识别多线检测EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问光学字符识别多线检测
EN