我一直在尝试从印刷文本文件中分割行。我遵循以下文件:
基于Hough变换的文本分割技术Satadal Saha,Subhadip Basu,Mita Nasipuri和Dipak Kr.巴苏
本文利用Hough变换在文本上生成直线,并在90°附近限制角度,并采用连通分量算法对生成的直线进行分组,使直线与文本分离。
hough变换输出如下:

但是,产生的直线有时在两个文本行之间重叠,多个线段被组合在一起。
文本中行的边框如下:

有谁能帮我避免这样的文本分组吗?请建议一种方法,以便连接组件分析将文本行作为单独的组件。
发布于 2016-12-20 08:01:47
您正在使用连接组件将您的hough-行分组为文本行。这个过程对噪声非常敏感:即使是一个错误的像素也能把两条线连在一起。
如果您查看图像中每一行的平均"on“像素,则可以使此过程更加健壮:
bw = imread('http://i.stack.imgur.com/tg2xN.png');
bw=bw>100;
figure; plot( mean(bw,2) ); xlabel('image row'); ylabel('#"on" pixels');

红线显示每行" on“像素数的7.5%阈值。正如你所看到的,它可以帮助区分连接良好的hough-线和假连接的hough-线。
使用此阈值修改掩码:
msk = bsxfun(@times, bw, mean(bw,2)>0.075);现在你可以得到合适的边框了
bb=regionprops(bwlabel(msk,8),'BoundingBox');其结果是:

https://stackoverflow.com/questions/41235519
复制相似问题