首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >打印文本行切分时行的分组

打印文本行切分时行的分组
EN

Stack Overflow用户
提问于 2016-12-20 05:33:28
回答 1查看 419关注 0票数 3

我一直在尝试从印刷文本文件中分割行。我遵循以下文件:

基于Hough变换的文本分割技术Satadal Saha,Subhadip Basu,Mita Nasipuri和Dipak Kr.巴苏

本文利用Hough变换在文本上生成直线,并在90°附近限制角度,并采用连通分量算法对生成的直线进行分组,使直线与文本分离。

hough变换输出如下:

但是,产生的直线有时在两个文本行之间重叠,多个线段被组合在一起。

文本中行的边框如下:

有谁能帮我避免这样的文本分组吗?请建议一种方法,以便连接组件分析将文本行作为单独的组件。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-12-20 08:01:47

您正在使用连接组件将您的hough-行分组为文本行。这个过程对噪声非常敏感:即使是一个错误的像素也能把两条线连在一起。

如果您查看图像中每一行的平均"on“像素,则可以使此过程更加健壮:

代码语言:javascript
复制
bw = imread('http://i.stack.imgur.com/tg2xN.png');
bw=bw>100;
figure; plot( mean(bw,2) ); xlabel('image row'); ylabel('#"on" pixels');

红线显示每行" on“像素数的7.5%阈值。正如你所看到的,它可以帮助区分连接良好的hough-线和假连接的hough-线。

使用此阈值修改掩码:

代码语言:javascript
复制
msk = bsxfun(@times, bw, mean(bw,2)>0.075);

现在你可以得到合适的边框了

代码语言:javascript
复制
bb=regionprops(bwlabel(msk,8),'BoundingBox');

其结果是:

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41235519

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档