我有一个非常简单的基于Tesseract的OCR应用程序。在识别步骤之后,我还提供了一个用户验证步骤,允许在OCR错误的情况下进行纠正。为了改善用户界面,我计划在原始输入图像上的OCR编辑字符顶部绘制一个矩形,并将其与OCR输出并排放置。为了达到这个目的,我需要识别字符的坐标。
我试过这样做,但这似乎让我胡言乱语:
ETEXT_DESC output;
tess->Recognize(&output);
text = tess->GetUTF8Text();现在,如果我访问output->count,它会给出高于10,000的值,这显然是错误的,因为整个图像只有20个左右的字符。
我在正确的轨道上吗?能告诉我方向吗?
发布于 2012-03-16 13:38:45
也许得到盒子的坐标是有帮助的。尝试tesseract的可执行文件。使用以下命令
"tesseract.exe图像制作盒“
在得到每个字符的坐标之后,每一行一个。那你就可以比较了。
发布于 2013-04-03 04:47:11
tesseract可执行文件有一个选项hocr,用于以html格式输出可识别字符及其共同字符。要以编程的方式获得这一点,常见问题要求引用baseapi.h。
https://stackoverflow.com/questions/7314573
复制相似问题