首页
学习
活动
专区
圈层
工具
发布

OCR分词
EN

Stack Overflow用户
提问于 2013-02-06 02:56:32
回答 2查看 2.1K关注 0票数 1

我正在开发一个OCR系统,需要一些在分词方面的帮助。

目前,OCR系统检测线路中的斑点(使用连接分量标记算法)。每个blob代表一个单独的字母,并在其周围有一个边界框。某些字符可能会在其边界框中重叠。

我怎样才能把这些字母组合成单词呢?如何决定单词之间的最佳距离,以便: 1.单词不会被切割2.单词不会连接到我所看到的其他单词-字母和单词之间的距离可能会有很大不同。

这部分是在字母分类之前完成的,因此不可能按实际的单词含义进行划分。

谢谢!

EN

回答 2

Stack Overflow用户

发布于 2013-02-06 03:34:58

如果你取每个垂直像素列的直方图,你可能会发现单词之间的间隔往往是最低的。如果您坚持先处理单词分隔符,再处理字母本身,那么像这样与某种二元分类器组合在一起的技术可能是一个很好的起点。(例如,您可以使用此直方图对语料库中单词的平均长度进行加权。)

请参阅:http://www.ijcaonline.org/rtippr/number1/SPE96T.pdf

票数 1
EN

Stack Overflow用户

发布于 2013-02-07 22:39:28

我倾向于先试着读一下这些字符。这将允许您使用(与语言相关的)工具来检查单词结尾,以帮助确认您已到达结尾。这些信息将允许你偏向你的“空格”检测,从而提高词尾的质量。它还有一个额外的用途,那就是增强你的准确性--实际上,当你错了的时候,它可以帮助你更有信心地知道;)

空白很难处理,我所知道的大多数API(包括我们自己的)都会返回单个字符的空白,而不管有多少空间。如果您试图处理表格形式的信息(例如,带有地址块左上角和右上角的字母),通常在两组数据之间只有一个空格。当然,存储每个字符的位置将有助于后期处理。

祝好运!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14714802

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档