我正在做一个名片扫描仪,用于我关于数字图像处理的期末考试,我想问你,我必须如何对名片的照片进行预处理,以便tesseract能够识别文本。我尝试了很多方法,像侵蚀,扩张,阈值,但我不能有一个好的结果…你能帮帮我吗?
谢谢
马可
发布于 2012-08-09 18:03:14
如果您只关心文本识别,而不关心预处理,请考虑使用ScanTailor。它是一个优秀的预处理工具,而且是开源的。
如果你想自己实现预处理,你可能想看看this paper -特别是这里描述的算法的倾斜校正和背景estimation.The结果很好。ScanTailor使用了其中的一些。
发布于 2015-04-11 17:28:40
我推荐使用开源的C++图像处理库OpenCV和开源的免费光学字符识别库tesseract。由于您对您的问题的信息不是很具体,我可以大致回答您的问题。OCR的主要过程是:
tesseract
的输入
关于tesseract的几句话:网上有很多关于图书馆的信息。它是一个谷歌开源库,用于谷歌图书的OCR目的。还可以处理图像中的布局分析,但在这方面并不完美,因此您自己进行预处理并仅使用tesseract进行实际字符识别部分可以获得更好的结果。如果您还有问题,或者如果我误解了您的问题,请随时提问。
https://stackoverflow.com/questions/11879608
复制相似问题