我正在通过tesseract创建一个OCR编辑的PDF:
tesseract input.tif out pdf但我也需要hocr和txt文件。tesseract 已经解决了这个问题的最新版本,但是由于它需要编译leptonica和tesseract,所以我对它并不完全满意。
我可以使用pdftotext提取文本文件,但我似乎找不到从PDF中提取hocr的方法。
发布于 2017-03-17 08:48:05
只需运行以下命令即可同时创建pdf和hocr。
tesseract input.tif out pdf hocr https://unix.stackexchange.com/questions/277511
复制相似问题